MLCommonsは先日、LMSYS Orgと共同でISO-AUSベンチマークテストを発表した。これは隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワークである。
ISO-AUSベンチマーク概要
ISO-AUS(Isolation-Aware Serving Optimization)は、実際の本番環境下でのAI推論需要をシミュレートすることを目的とし、モデル間の隔離性、リソース割り当ての公平性、低遅延レスポンスを重視している。従来のChatbot Arenaとは異なり、ISO-AUSはマルチテナント負荷テストを導入し、共有リソース下でのモデルのパフォーマンスを評価する。
主要テスト指標
- Elo Rating:ユーザーのブラインドテストに基づくランキングシステム。GPT-4oが1420点でトップ。
- Throughput:1秒あたりのクエリ数。SGLang最適化後は25%向上。
- Isolation Score:サイドチャネル攻撃を防ぐ隔離効率。オープンソースモデルの平均スコアは85%。
- Resource Utilization:メモリ/CPU使用率を90%以内に制御。
テスト結果のハイライト
標準データセットにおいて、Claude 3.5 Sonnetは複雑なクエリで勝利したが、Llama 3.1-405BはSGLang下で最高のコストパフォーマンスを実現し、遅延を40%削減した。グラフは以下の通り:

このベンチマークはNVIDIA H100およびAMD MI300Xハードウェアと互換性があり、エッジデプロイメントをサポートしている。
業界への影響
ISO-AUSは、AIベンチマークのセキュリティ隔離分野における空白を埋め、モデルの実験室から本番環境への円滑な移行を推進している。LMSYS Orgは、Chatbot Arenaに統合し、リアルタイムのElo更新を提供すると表明している。
詳細は公式リンクを参照。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接