MLCommons 小型LLM推論ベンチマーク5.1リリース

2026年2月10日 764 約4分 MLC

MLC MLCommons 小型LLM 推理基准 MLPerf 性能排行

MLCommons組織はSmall LLM Inference 5.1ベンチマークを発表しました。これはMLPerf Inferenceシリーズにおいて小型言語モデル（1-3Bパラメータ）に焦点を当てた最新版です。このベンチマークは、チャットボット、テキスト生成などのタスクを含む実際の推論シナリオでのSLMの性能を評価することを目的としており、開発者が効率的なハードウェアの選択と最適化フレームワークを選ぶのに役立ちます。

ベンチマーク概要と更新内容

Small LLM InferenceベンチマークはChatbot Arenaスタイルのインタラクションをシミュレートし、TinyLlama、Gemma 2 2B、Llama 3.2 1B、Phi-3.5-mini-instructなど様々なSLMをサポートしています。新バージョン5.1の主な更新内容は以下の通りです：

Llama 3.2 1Bモデルを新たに追加し、視覚言語タスクの拡張をサポート。
テストシナリオの最適化：プリフィル（Prefill）とデコード（Decode）フェーズを分離して評価し、総トークン数は2048に。
SGLangやvLLMなどの推論エンジンを導入し、動的バッチ処理をサポート。
ハードウェア範囲をデータセンターGPU（H100、H200など）、エッジデバイス（Jetson Orinなど）、CPUまで拡張。

テストはMLPerfルールに従い、closed（クローズドソース最適化）とopen（オープンソース）トラックに分かれ、公平な比較を保証しています。

主要な性能結果

データセンターシナリオでは、closedトラックの90パーセンタイル応答時間とシステムスループットがコア指標となっています。

Closedトラックのリーダー

NVIDIA H200：Llama 3.2 1Bモデルで、最高スループット1200+ queries/sを達成し、前世代比25%向上。
AMD Instinct MI300X：僅差で続き、コストパフォーマンスが優れています。
Intel Gaudi3：初回提出で競争力を示しました。

Openトラックのハイライト

SGLangフレームワークはデコード効率でリードし、FlashAttention-2と組み合わせて1.5倍の高速化を実現。vLLMは高い同時実行性において安定したパフォーマンスを示しました。

ハードウェア	モデル	スループット (qps)	レイテンシ (ms, p90)
H200 SXM	Llama 3.2 1B	1250	180
MI300X	Phi-3.5-mini	1100	210

エッジデバイスでは、NVIDIA Jetson AGX Orinがリアルタイム応答で優れており、モバイルAIアプリケーションに適しています。

MLCommons 小型LLM推論ベンチマーク5.1リリース

ベンチマーク概要と更新内容

主要な性能結果

Closedトラックのリーダー

Openトラックのハイライト

ランキングと分析

関連記事