生成式AI サービス評価の標準化:API志向ベンチマークテストの新パラダイム

生成式AIの採用率は爆発的に成長しており、ChatGPTだけでも2023年半ばから2025年初頭にかけて、ユーザー規模は約8倍に増加した。Anthropic、Google、Meta、Microsoft、Mistral、OpenAIなどの巨大企業によるモデルリリースのペースは非常に速く、半年周期のベンチマークテストは地質学的時代のように長く感じられる。数百万ドルを投じて推論インフラストラクチャを構築する企業にとって、ある問題がますます切実になっている:これらのシステムを本番環境の実態を反映する方法でどう比較するか?

GTCカンファレンスで、MLCommonsの共同創設者David Kanterが答えを発表した:MLPerf Endpoints、これは業界ベンチマークテスト記録の徹底的な再構築である。MLPerfは125以上の会員組織、9万件を超える再現可能な結果を持ち、IEEEとISO/IEC SC42の認定を受けており、政府、産業、学術機関の調達決定における重要な柱となっている。Endpointsはこの信頼を維持しながら、2年間で天地がひっくり返るようなエコシステムの変化に適応することを目指している。您可在此お試しいただける

従来の方法がなぜ変革を必要とするか

従来のMLPerf推論ベンチマークは密結合アーキテクチャを採用している:負荷生成器とモデルサーバーが単一のローカルプロセスとして依存関係を共有する。これはクラシックMLでは有効だが、生成式AIのデプロイメントはAPIファーストであり、ローカル、クラウド、またはマネージドサービスのいずれであっても同様である。

同時に、GenAIのパフォーマンス測定は決して簡単ではない。実際のサービスは精度、レイテンシ、スループット、シーケンス長を融合させ、非線形の多次元曲面を形成する必要がある。ロングテールクエリ、変動する到着パターン、厳格なSLAの相互作用は、単純なシナリオでは捉えきれない。

API中心のアーキテクチャ

MLPerf Endpointsはモノリシック設計を捨て、HTTPやgRPCなどの標準インターフェースを介して任意のモデルサービスAPIエンドポイントと通信する分離型クライアントに転換した。ベンチマーククライアントは軽量で本番環境に即しており、テスト対象システムはURLひとつだけで済む。提出者はゼロ障壁で統合でき、エンドポイントを指定するだけで実行できる。このアーキテクチャにより、マネージドクラウドサービスとベアメタルデプロイメントが公平に競争できるようになり、これは以前のフレームワークでは実現困難だった。

基盤となる新世代の拡張可能な負荷生成器は、独立したワーカープロセス、事前ウォームアップされた接続プール、ZeroMQベースのIPCを採用し、ラックスケールのシステムをテストする場合でも、テストフレームワーク自体がボトルネックになることはない。

パレート曲線とステップ関数:新しい指標と直感的な比較可視化

最も革新的なのは結果の提示方法である。各ベンチマークラウンドは並行性を変化させ、TTFT(最初のトークンまでの時間)、throughput(トークン/秒)、interactivity(ユーザートークン/秒)、および応答レイテンシを含む主要指標をキャプチャする。提出者は各作業点で並列処理とバッチ処理を調整し、視覚化ツールがパレート曲線(例:スループット対インタラクティビティ)を描画する。これにより購入者は、より多くのユーザーにサービスを提供することと応答性を保つことのトレードオフなど、現実的な妥協点を瞬時に洞察できる。

重要なのは、MLPerf Endpointsが補間されたトレンドラインではなくステップ関数を使用することである。GenAIのパフォーマンスは高度に非線形であり、補間は実現されていないレベルを捏造し、メモリオーバーフローやP99レイテンシピークを隠蔽する可能性がある。ステップ関数は検証された作業点のみを表示し、「紙上の性能」を排除する。顧客はこれらの関数を簡単に比較し、自分のシナリオ(日中の高並行性、夜間の極限的インタラクティビティなど)にマッチングできる。

ローリング提出:ソフトウェア更新速度に追いつくベンチマークテスト

最も破壊的な変革は運用モデルにある。MLPerfは従来、2年周期でリリース(トレーニング、推論、ストレージなど)していた。モデルが数週間ごとに更新される市場では、これはRFP作成やハードウェアリリースには遅すぎる。2026年第2四半期から、MLPerf Endpointsは継続的なローリング提出に移行する:提出者はピアレビューと監査を経た結果をいつでも発表できる。増分提出により、ベースラインのパレート曲線から開始し、ソフトウェアスタックの成熟に伴って反復的にポイントを追加できる。

この方法はSPECやTPCなどの標準化団体の成熟した手法を参考にし、AIの世界に適応させている。レビューと監査の要求は一切緩めず、業界レベルの堅牢性を確保している。

将来の展望

最初のMLPerf Endpoints v0.5デモンストレーション結果は、AMD、Google、Intel、KRAI、NVIDIAなどから提供され、Argonne国立研究所、Broadcom、Dell、HPE、Lambda、Lenovo、Oracle、Red Hat、フロリダ大学を含む30以上の組織からサポートを受けている。結果はDeepSeek-R1、GPT OSS 120B、Llama 3.1 8B、QWEN 3 Coder 480Bなど多数のモデルをカバーし、約10種類のシステム上で実行されている。

将来を展望すると、MLCommonsはエコシステムに次のステップを共に形作るよう呼びかけている。企業とITバイヤーは諮問委員会に参加できる。OEM、CSP、ODMはローリングランキングに結果を提供できる。モデル開発者とAPIプロバイダーはSOTAモデルを統合し、マネージドルートを計画できる。研究者はEndpointsを使って再現可能なベースラインを確立できる。新しいモデル、特に実用的で商用的に人気のあるものは、継続的に評価に組み込まれる。こちらでお試しいただける。

参加方法: MLPerf Endpointsのローリング提出は2026年第2四半期に開始される。参加、貢献、または詳細を知りたい場合は、https://mlcommons.org/benchmarks/endpoints/にアクセスするか、ワーキンググループに参加してください。