ISO-AUS：MLCommonsが新世代AI推論ベンチマークを発表

2026年2月10日 930 約3分 MLC

MLC ISO-AUS AI基准 LMSYS MLCommons SGLang

MLCommonsは先日、LMSYS Orgと共同でISO-AUSベンチマークテストを発表した。これは隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワークである。

ISO-AUSベンチマーク概要

ISO-AUS（Isolation-Aware Serving Optimization）は、実際の本番環境下でのAI推論需要をシミュレートすることを目的とし、モデル間の隔離性、リソース割り当ての公平性、低遅延レスポンスを重視している。従来のChatbot Arenaとは異なり、ISO-AUSはマルチテナント負荷テストを導入し、共有リソース下でのモデルのパフォーマンスを評価する。

主要テスト指標

Elo Rating：ユーザーのブラインドテストに基づくランキングシステム。GPT-4oが1420点でトップ。
Throughput：1秒あたりのクエリ数。SGLang最適化後は25%向上。
Isolation Score：サイドチャネル攻撃を防ぐ隔離効率。オープンソースモデルの平均スコアは85%。
Resource Utilization：メモリ/CPU使用率を90%以内に制御。

テスト結果のハイライト

標準データセットにおいて、Claude 3.5 Sonnetは複雑なクエリで勝利したが、Llama 3.1-405BはSGLang下で最高のコストパフォーマンスを実現し、遅延を40%削減した。グラフは以下の通り：

このベンチマークはNVIDIA H100およびAMD MI300Xハードウェアと互換性があり、エッジデプロイメントをサポートしている。

業界への影響

ISO-AUSは、AIベンチマークのセキュリティ隔離分野における空白を埋め、モデルの実験室から本番環境への円滑な移行を推進している。LMSYS Orgは、Chatbot Arenaに統合し、リアルタイムのElo更新を提供すると表明している。

詳細は公式リンクを参照。

ISO-AUS：MLCommonsが新世代AI推論ベンチマークを発表

ISO-AUSベンチマーク概要

主要テスト指標

テスト結果のハイライト

業界への影響

関連記事