MLPerf Inference v6.0にText-to-Videoを導入

はじめに

MLCommons MLPerf Inferenceベンチマークスイートは、機械学習(ML)および人工知能(AI)ワークロードの性能を測定する業界標準であり、ビジョン、音声、自然言語処理などの分野をカバーしています。このスイートは業界の最先端を代表するワークロードを厳選し、消費者には展開と予算決定の重要情報を提供するだけでなく、ベンダーが実際の制約下でワークロードを最適化するのにも役立ちます。

過去1年間で、OpenAI Sora2などの動画生成モデルが急速に発展し、アマチュアによる奇妙な動画生成から、プロフェッショナルなクリエイティブワークフローの中核ツールへと変化しました。このため、MLPerf Text-to-Videoタスクグループが設立され、専用の動画生成ベンチマークをMLPerfスイートに組み込むことになりました。

モデルの選定

ベンチマークでは、アリババが2025年7月に発表したWan2.2-T2V-A14B-Diffusersモデルを採用しました。当時、これはText-to-Videoランキングで最高のオープンソース重みモデルの一つでした。このモデルはApache 2.0ライセンスで完全にオープンソースであり、Huggingface Diffusersで実行できます。

Wan2.2モデルは3つの部分から成るパイプラインで構成されています:

  1. GoogleのUMT5 XXLテキストエンコーダー(プロンプトのエンコード用)
  2. Wan2.2 A14B拡散Transformer(動画の潜在表現生成用)
  3. Wan2.2 VAEデコーダー(潜在動画をフレームシーケンスにデコード用)

Wan2.2-T2V-A14B-Diffusersの重要な特徴は専門家混合(MoE)アーキテクチャですが、標準的なMoEのゲートなしネットワークとは異なり、2つの専門家を順次アクティブ化します:初期のデノイジング段階では「高ノイズ専門家」を使用し、後期では「低ノイズ専門家」に切り替えます。

興味深いことに、ほとんどの動画生成モデルはフレームごとに生成するのではなく、動画の潜在表現全体を同時にデノイジングします。例えば、Wan2.2の潜在表現は32×32ピクセルの4フレームをカバーします。5秒の720p 16fps動画を生成するには、シーケンス長が19,320に達し、計算集約的なワークロードとなります。

性能指標

ベンチマーク設計時の最大の課題は性能指標の選択でした。テキストから動画へのタスクは計算コストが高く、単一のクエリでも数分を要することがよくあります。

実現可能性と最先端性を確保するため、以下のように制限を設けました:

  • 設定:動画時間は5秒、解像度は720p固定、つまり81枚の720×1280画像(16fps)を生成。
  • 実行時目標:パフォーマンスモードのデータセットを100/248サンプルに削減(精度モードでは248を保持)。

ServerシナリオをSingleStreamに置き換え

ベンチマークの重要な変更は、レイテンシを測定するためにServerシナリオをSingleStreamに置き換えたことです。単一の動画生成には大量の計算が必要で、しばしば数分かかります。

Serverシナリオはほぼリアルタイム処理を前提としますが、実際にはシステムを過負荷にし、ほとんどのリクエストが長時間待機することになり、ハードウェア性能を正確に反映できません。そのため、SingleStreamを採用し、処理時間のみを測定し、待機時間を無視します。

データセット、精度指標とタスク選択

私たちはVBenchを公式データセットおよび精度フレームワークとして選択し、比較分析によりライセンス、堅牢性、使いやすさを優先的に考慮しました。

初期評価にはOpenVid-1MVidGen-1MWebVid-10MActivityNetが含まれていました。まず商業利用可能性でフィルタリング:

  • VidGen-1MWebVid-10Mは非商用ライセンスのため除外。
  • OpenVid-1Mはライセンスが適切(CC BY 4.0)だが、データセットのみで評価フレームワークがない。

VBenchが際立ち、完全なソリューションを提供:多様なプロンプトセット+事前検証済みスコアスイート、Subject ConsistencyMotion SmoothnessAesthetic Qualityなど16次元の品質指標を含む;約950の標準化されたプロンプト;決定論的(固定シード下でハードウェア間で安定、例:NVIDIA、AMD);広く採用(例:Wanモデルのレポート)。

VBenchのデフォルト設定は80時間以上かかるため、MLPerfに合わせて調整:

  • データセットのサブセット:6つの主要指標に焦点:Subject Consistency、Background Consistency、Motion Smoothness、Dynamic Degree、Appearance Style、Scene、高い識別性を確保し、冗長性を除去。
  • 規模縮小:248サンプルまで、正確な検証と実行時間のバランスを取る。

VBenchは商業的に実現可能で、法的にクリアで、方法論が完全な唯一のフレームワークであり、MLPerfの制約に適応できます。

リファレンス実装

公平で再現可能であることを保証するため、リファレンス実装は標準化されたオープンソース基盤に基づいています:

  • モデルアーキテクチャ:Wan2.2-T2V-A14B-Diffusers(Wan-AIホスト)、14Bパラメータ拡散Transformer。
  • 精度と計算:BF16 (BFloat16)精度。
    • リファレンス精度:70.48(VBench)。
    • 最小閾値:69.77(リファレンスの99%)。
  • 生成パイプライン:Hugging Face Diffusersベース。
    • 入力:テキストプロンプト+固定潜在テンソル(決定論性を保証)。
    • スケジューラー:UniPCMultistepScheduler(Wan2.2デフォルト)。