MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

はじめに

MLPerf® Inference v6.0のリリースは、オープンソース大規模言語モデル(LLM)分野のカバー範囲が大幅に拡大したことを示しています。業界がより専門的で能力の高いオープンソースモデルへと移行する中、ベンチマークテストもデプロイ戦略とモデルアーキテクチャの変化を反映して進化する必要があります。

今回、Reasoning LLMタスクグループは2つの重要な新機能を導入しました:

  • GPT-OSS 120B:人気のオープンソース高性能モデルに基づく新しいベンチマークで、数学、科学的推論、コーディングに優れ、総パラメータ数117Bの大規模な混合エキスパート(MoE)アーキテクチャを採用しています。
  • DeepSeek-R1インタラクションシナリオ:既存のDeepSeek-R1ベンチマークに基づき、リアルタイム推論アプリケーション向けの低遅延制約を持つインタラクティブワークロードを新たに追加しました。これはMLPerfで初めて標準化されたspeculative decodingです。

GPT-OSS 120B新ベンチマーク

GPT-OSS 120Bは人気のオープンソース高性能モデルで、MoEアーキテクチャを採用し、総パラメータ数117B(トークンごとに5.1Bがアクティブ)です。このモデルは設定可能な推論努力レベルをネイティブでサポートし、高度なコーディング、競技数学、大学院レベルの科学的論理など、多様で複雑な知識集約型ワークフローに展開されています。

最先端モデルは、高速な通常リクエストから複雑な多段階問題解決まで、幅広い本番ワークロードに展開されることが多いです。この二重性を正確に反映するため、データセットを分割する戦略を導入しました:

  • 通常の低努力タスク(要約生成など)のパフォーマンスデータセット。
  • コーディング、科学知識、数学分野の困難な推論問題の精度データセット。

両モードともOpenAI Harmony chatフォーマットを使用し、システムプロンプトを通じてモデルの推論努力(低、中、高)を直接制御します。

データセット選択

MLPerf推論ベンチマークで初めてパフォーマンスと精度のデータセットを分離しました。これまでのすべてのベンチマークは単一のデータセットを使用していました。分離により柔軟性が生まれ、将来のベンチマーク定義が容易になり、2つのタスクが異なるため、それぞれに最適なデータセットを選択できます。

タスクグループは、新しいコンプライアンステストを追加してパフォーマンスモードでの精度を検証することで、パフォーマンスと精度実行の一貫性を確保しています。

精度モード(高推論努力)

公正な精度ベースラインを確保するため、高い推論努力を要求する複合データセットをキュレーションしました:

  • 最大出力長: 32,768トークン
  • 評価戦略: Pass@1、k回繰り返し。
  • データセット:
  • AIME 2024: 高度な数学問題。指標:Exact Match。
  • LiveCodeBench v6: リアルタイムコーディングタスク。指標:Pass/Fail。
  • GPQA-Diamond: 大学院レベルの科学QA。指標:Correct/Not Correct。

評価はOpenAI公式スクリプトに基づいています。トークン化された入力推論(HarmonySampler)をサポートするfeat/mlperf_integrationブランチを作成し、LiveCodeBench v6評価を追加しました。gpt_oss.evalsを複数回実行して入力軌跡を収集し、AIME25、LCB_V6、GPQA_Diamondの信頼できる精度閾値を決定しました。

GPT-OSS精度目標

提出された実装は、以下の精度データセット目標を達成または超過する必要があります:

DatasetRepeats per SampleAccuracy TargetEvaluation Metric
AIME 2024882.92%Exact Match (MCQ)
GPQA-Diamond574.95%Correct/Not Correct
LiveCodeBench v6884.68%Pass/Fail (Code Execution)

パフォーマンスモード(低推論努力)

純粋な推論速度(tokens/second)を測定するため、ccdv/pubmed-summarizationからサンプリングしたデータセットを使用します:

  • タスク: PubMed健康記事の要約生成。
  • 設定: Harmonyフォーマット「低推論努力」。
  • シーケンス長: 最大出力 10,240トークン
  • 指標: スループットと遅延。
  • 平均入力シーケンス長: 5,000トークン
  • 平均出力シーケンス長: 1,250トークン
図1図2

パフォーマンス指標

パフォーマンス指標は、デプロイシナリオに応じて厳格な遅延制約下でシステムを評価します:

GPT-OSS制約:

  • インタラクションシナリオ: 99thパーセンタイルTTFT ≤ 2.0秒;TPOT ≤ 15ミリ秒。
  • サーバーシナリオ: 99thパーセンタイルTTFT ≤ 3.0秒;TPOT ≤ 80ミリ秒。

精度指標

GPT-OSSの精度は、精度モードデータセットに基づいて厳密に評価されます:AIME 2024はExact Match、LiveCodeBench v6はコード実行(Pass/Fail)、GPQA-DiamondはCorrect/Not Correctを使用します。

コンプライアンスチェック

分離されたデータセットを使用するため、パフォーマンスモードの精度を確保する新しいコンプライアンスチェックを導入しました:

  1. TEST07:GPQAデータセット(3つの精度データセットの1つ)を使用してパフォーマンス実行の精度を検証します。3つのデータセットすべての計算オーバーヘッドが大きすぎるため、サブセットを使用します。
  2. TEST09:パフォーマンスデータセットの平均出力長が参照実装の±10%以内であることを検証します。

参照実装

MLPerf Inference v6.0公式参照実装は、エンドツーエンドの評価コードと説明を提供しています。

  • GPT-OSS 120B: GitHubリンク

DeepSeek-R1インタラクションシナリオ新ワークロード

v5.1で導入されたDeepSeek-R1ベンチマークに基づき、数学、知識推論、複雑なコーディングなどの高度な推論ユースケースにおける低遅延応答の需要を表すインタラクションシナリオを新たに追加しました。データセット(LiveCodeBench、MATH500、AIME、GPQA-Diamond、MMLU-Pro)はサーバーシナリオと同じで、最小クエリ数は4,388ですが、応答時間制約はより厳しくなっています。

パフォーマンス指標

パフォーマンス指標は厳格な遅延制約下で評価されます:

DeepSeek-R1インタラクション制約とSpeculative Decoding:

  • 新インタラクションシナリオ(Poisson到着): 99thパーセンタイルTTFT ≤ 1.5秒;TPOT ≤ 15ミリ秒。
  • (既存)サーバーシナリオ(Poisson到着):99thパーセンタイルTTFT ≤ 2秒、TPOT ≤ 80ミリ秒。

DeepSeek-R1インタラクションシナリオの厳しい遅延要件を満たすため、speculative decodingを有効にし、公式のDeepSeek-R1 MTP(Multi-Token Prediction)HeadとEAGLE-style decodingを使用する必要があります:

  • アルゴリズム: EAGLE-style decoding、deepseek-ai/deepseek-r1 MTP head。
  • 設定: speculative-num-steps=3、speculative-eagle-topk=1.0。
  • 禁止事項: MTP headの継続的な事前学習、量子化、または事後学習調整(ファインチューニング、RLHF)など、受け入れ率を人為的に操作することは禁止されています。
  • 詳細は公式ルールを参照:mlperf-inference/policies

精度指標

DeepSeek-R1インタラクションの精度指標はv5.1サーバー提出と同じ(数学/QA厳密一致、LiveCodeBenchコード実行)で、speculative decodingがモデルの推論能力を低下させないことを保証します。

参照実装

MLPerf Inference v6.0公式参照実装は、必要なコードと実行手順を提供しています。