MLCommons Whisper推論ベンチマーク v5.1 リリース

MLCommons組織は2025年9月にWhisper Inference v5.1ベンチマークを公開しました。これはOpenAI Whisper音声テキスト変換モデルの推論性能に関する最新の標準化評価です。このベンチマークは業界に公平で比較可能な性能データを提供し、開発者のデプロイ最適化を支援することを目的としています。

主要な更新とモデルサポート

v5.1バージョンではWhisper large-v3モデルが導入され、tiny、base、small、medium、large-v1、large-v2などのバリエーションも保持されています。データセットはMultilingual LibriSpeechに拡張され、英語と多言語音声を含み、合計時間は1000時間を超えています。

主要指標

  • RTF (Real-Time Factor):推論時間と音声長の比率、低いほど良い。
  • WER (Word Error Rate):単語誤り率、精度を測定。
  • 主要スコア:RTF @ target WER(例:RTF@WER20%)、速度と精度のバランス。
  • エネルギー効率指標:RTF × 消費電力(Watts)。

テストハードウェアとフレームワーク

CPU(x86、ARM、Intel Xeon、AMD EPYC、Apple Mシリーズなど)、GPU(NVIDIA A100/H100、AMD MI300X、Intel Gaudi)、エッジデバイスをサポート。フレームワークにはONNX Runtime、TensorRT、SGLangなどが含まれます。

トップ性能結果

サーバー側のトップ提出:

ハードウェアモデルRTF@WER20%提出者
NVIDIA H100 SXMlarge-v30.008NVIDIA
AMD MI300Xlarge-v30.012AMD
Intel Xeon 6medium0.15Intel

エッジ側のハイライト:Apple M3 MaxはRTF@WER20%で0.05を達成し、エネルギー効率が最高。

ランキングと提出ガイドライン

完全な結果はMLCommons公式サイトで確認できます。開発者はMLPerf Inference v5.1ルールを通じて提出でき、前処理と後処理を含むエンドツーエンドの性能を強調します。

このベンチマークは高精度STTタスクにおけるGPUの優位性を際立たせると同時に、低消費電力最適化を推進し、AI音声アプリケーションの実用化を支援します。