MLPerf Inference v6.0にText-to-Videoを導入

2026年3月12日 588 約7分 MLC

MLC MLPerf Text-to-Video Wan2.2 VBench AI基准

はじめに

MLCommons^Ⓡ MLPerf^Ⓡ Inferenceベンチマークスイートは、機械学習（ML）および人工知能（AI）ワークロードの性能を測定する業界標準であり、ビジョン、音声、自然言語処理などの分野をカバーしています。このスイートは業界の最先端を代表するワークロードを厳選し、消費者には展開と予算決定の重要情報を提供するだけでなく、ベンダーが実際の制約下でワークロードを最適化するのにも役立ちます。

過去1年間で、OpenAI Sora2などの動画生成モデルが急速に発展し、アマチュアによる奇妙な動画生成から、プロフェッショナルなクリエイティブワークフローの中核ツールへと変化しました。このため、MLPerf Text-to-Videoタスクグループが設立され、専用の動画生成ベンチマークをMLPerfスイートに組み込むことになりました。

モデルの選定

ベンチマークでは、アリババが2025年7月に発表したWan2.2-T2V-A14B-Diffusersモデルを採用しました。当時、これはText-to-Videoランキングで最高のオープンソース重みモデルの一つでした。このモデルはApache 2.0ライセンスで完全にオープンソースであり、Huggingface Diffusersで実行できます。

Wan2.2モデルは3つの部分から成るパイプラインで構成されています：

GoogleのUMT5 XXLテキストエンコーダー（プロンプトのエンコード用）
Wan2.2 A14B拡散Transformer（動画の潜在表現生成用）
Wan2.2 VAEデコーダー（潜在動画をフレームシーケンスにデコード用）

Wan2.2-T2V-A14B-Diffusersの重要な特徴は専門家混合（MoE）アーキテクチャですが、標準的なMoEのゲートなしネットワークとは異なり、2つの専門家を順次アクティブ化します：初期のデノイジング段階では「高ノイズ専門家」を使用し、後期では「低ノイズ専門家」に切り替えます。

興味深いことに、ほとんどの動画生成モデルはフレームごとに生成するのではなく、動画の潜在表現全体を同時にデノイジングします。例えば、Wan2.2の潜在表現は32×32ピクセルの4フレームをカバーします。5秒の720p 16fps動画を生成するには、シーケンス長が19,320に達し、計算集約的なワークロードとなります。

性能指標

ベンチマーク設計時の最大の課題は性能指標の選択でした。テキストから動画へのタスクは計算コストが高く、単一のクエリでも数分を要することがよくあります。

実現可能性と最先端性を確保するため、以下のように制限を設けました：

設定：動画時間は5秒、解像度は720p固定、つまり81枚の720×1280画像（16fps）を生成。
実行時目標：パフォーマンスモードのデータセットを100/248サンプルに削減（精度モードでは248を保持）。

ServerシナリオをSingleStreamに置き換え

ベンチマークの重要な変更は、レイテンシを測定するためにServerシナリオをSingleStreamに置き換えたことです。単一の動画生成には大量の計算が必要で、しばしば数分かかります。

Serverシナリオはほぼリアルタイム処理を前提としますが、実際にはシステムを過負荷にし、ほとんどのリクエストが長時間待機することになり、ハードウェア性能を正確に反映できません。そのため、SingleStreamを採用し、処理時間のみを測定し、待機時間を無視します。

データセット、精度指標とタスク選択

私たちはVBenchを公式データセットおよび精度フレームワークとして選択し、比較分析によりライセンス、堅牢性、使いやすさを優先的に考慮しました。

初期評価にはOpenVid-1M、VidGen-1M、WebVid-10M、ActivityNetが含まれていました。まず商業利用可能性でフィルタリング：

VidGen-1MとWebVid-10Mは非商用ライセンスのため除外。
OpenVid-1Mはライセンスが適切（CC BY 4.0）だが、データセットのみで評価フレームワークがない。

VBenchが際立ち、完全なソリューションを提供：多様なプロンプトセット＋事前検証済みスコアスイート、Subject Consistency、Motion Smoothness、Aesthetic Qualityなど16次元の品質指標を含む；約950の標準化されたプロンプト；決定論的（固定シード下でハードウェア間で安定、例：NVIDIA、AMD）；広く採用（例：Wanモデルのレポート）。

VBenchのデフォルト設定は80時間以上かかるため、MLPerfに合わせて調整：

データセットのサブセット：6つの主要指標に焦点：Subject Consistency、Background Consistency、Motion Smoothness、Dynamic Degree、Appearance Style、Scene、高い識別性を確保し、冗長性を除去。
規模縮小：248サンプルまで、正確な検証と実行時間のバランスを取る。

VBenchは商業的に実現可能で、法的にクリアで、方法論が完全な唯一のフレームワークであり、MLPerfの制約に適応できます。

リファレンス実装

公平で再現可能であることを保証するため、リファレンス実装は標準化されたオープンソース基盤に基づいています：

モデルアーキテクチャ：Wan2.2-T2V-A14B-Diffusers（Wan-AIホスト）、14Bパラメータ拡散Transformer。
精度と計算：BF16 (BFloat16)精度。
- リファレンス精度：70.48（VBench）。
- 最小閾値：69.77（リファレンスの99%）。
生成パイプライン：Hugging Face Diffusersベース。
- 入力：テキストプロンプト＋固定潜在テンソル（決定論性を保証）。
- スケジューラー：UniPCMultistepScheduler（Wan2.2デフォルト）。