MLCommons Whisper推論ベンチマーク v5.1 リリース

2026年2月10日 694 約3分 MLC

MLC Whisper MLCommons 推理基准语音识别 WER

MLCommons組織は2025年9月にWhisper Inference v5.1ベンチマークを公開しました。これはOpenAI Whisper音声テキスト変換モデルの推論性能に関する最新の標準化評価です。このベンチマークは業界に公平で比較可能な性能データを提供し、開発者のデプロイ最適化を支援することを目的としています。

主要な更新とモデルサポート

v5.1バージョンではWhisper large-v3モデルが導入され、tiny、base、small、medium、large-v1、large-v2などのバリエーションも保持されています。データセットはMultilingual LibriSpeechに拡張され、英語と多言語音声を含み、合計時間は1000時間を超えています。

主要指標

RTF (Real-Time Factor)：推論時間と音声長の比率、低いほど良い。
WER (Word Error Rate)：単語誤り率、精度を測定。
主要スコア：RTF @ target WER（例：RTF@WER20%）、速度と精度のバランス。
エネルギー効率指標：RTF × 消費電力（Watts）。

テストハードウェアとフレームワーク

CPU（x86、ARM、Intel Xeon、AMD EPYC、Apple Mシリーズなど）、GPU（NVIDIA A100/H100、AMD MI300X、Intel Gaudi）、エッジデバイスをサポート。フレームワークにはONNX Runtime、TensorRT、SGLangなどが含まれます。

トップ性能結果

サーバー側のトップ提出：

ハードウェア	モデル	RTF@WER20%	提出者
NVIDIA H100 SXM	large-v3	0.008	NVIDIA
AMD MI300X	large-v3	0.012	AMD
Intel Xeon 6	medium	0.15	Intel

エッジ側のハイライト：Apple M3 MaxはRTF@WER20%で0.05を達成し、エネルギー効率が最高。

MLCommons Whisper推論ベンチマーク v5.1 リリース

主要な更新とモデルサポート

主要指標

テストハードウェアとフレームワーク

トップ性能結果

ランキングと提出ガイドライン

関連記事