MLCommons組織はSmall LLM Inference 5.1ベンチマークを発表しました。これはMLPerf Inferenceシリーズにおいて小型言語モデル(1-3Bパラメータ)に焦点を当てた最新版です。このベンチマークは、チャットボット、テキスト生成などのタスクを含む実際の推論シナリオでのSLMの性能を評価することを目的としており、開発者が効率的なハードウェアの選択と最適化フレームワークを選ぶのに役立ちます。
ベンチマーク概要と更新内容
Small LLM InferenceベンチマークはChatbot Arenaスタイルのインタラクションをシミュレートし、TinyLlama、Gemma 2 2B、Llama 3.2 1B、Phi-3.5-mini-instructなど様々なSLMをサポートしています。新バージョン5.1の主な更新内容は以下の通りです:
- Llama 3.2 1Bモデルを新たに追加し、視覚言語タスクの拡張をサポート。
- テストシナリオの最適化:プリフィル(Prefill)とデコード(Decode)フェーズを分離して評価し、総トークン数は2048に。
- SGLangやvLLMなどの推論エンジンを導入し、動的バッチ処理をサポート。
- ハードウェア範囲をデータセンターGPU(H100、H200など)、エッジデバイス(Jetson Orinなど)、CPUまで拡張。
テストはMLPerfルールに従い、closed(クローズドソース最適化)とopen(オープンソース)トラックに分かれ、公平な比較を保証しています。
主要な性能結果
データセンターシナリオでは、closedトラックの90パーセンタイル応答時間とシステムスループットがコア指標となっています。
Closedトラックのリーダー
- NVIDIA H200:Llama 3.2 1Bモデルで、最高スループット1200+ queries/sを達成し、前世代比25%向上。
- AMD Instinct MI300X:僅差で続き、コストパフォーマンスが優れています。
- Intel Gaudi3:初回提出で競争力を示しました。
Openトラックのハイライト
SGLangフレームワークはデコード効率でリードし、FlashAttention-2と組み合わせて1.5倍の高速化を実現。vLLMは高い同時実行性において安定したパフォーマンスを示しました。
| ハードウェア | モデル | スループット (qps) | レイテンシ (ms, p90) |
|---|---|---|---|
| H200 SXM | Llama 3.2 1B | 1250 | 180 |
| MI300X | Phi-3.5-mini | 1100 | 210 |
エッジデバイスでは、NVIDIA Jetson AGX Orinがリアルタイム応答で優れており、モバイルAIアプリケーションに適しています。
ランキングと分析
完全なランキングは公式ページをご覧ください。今回の結果は量子化(INT4/FP8)と連続バッチ処理の重要性を浮き彫りにし、SLMのクラウドからエッジへの移行を推進しています。将来的に、ベンチマークはより多くのマルチモーダルSLMをサポートする予定です。
この発表はAIハードウェア選定に貴重な参考資料を提供し、効率的なSLMデプロイメントを支援します。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接