ISO-AUS:MLCommonsが新世代AI推論ベンチマークを発表

MLCommonsは先日、LMSYS Orgと共同でISO-AUSベンチマークテストを発表した。これは隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワークである。

ISO-AUSベンチマーク概要

ISO-AUS(Isolation-Aware Serving Optimization)は、実際の本番環境下でのAI推論需要をシミュレートすることを目的とし、モデル間の隔離性、リソース割り当ての公平性、低遅延レスポンスを重視している。従来のChatbot Arenaとは異なり、ISO-AUSはマルチテナント負荷テストを導入し、共有リソース下でのモデルのパフォーマンスを評価する。

主要テスト指標

  • Elo Rating:ユーザーのブラインドテストに基づくランキングシステム。GPT-4oが1420点でトップ。
  • Throughput:1秒あたりのクエリ数。SGLang最適化後は25%向上。
  • Isolation Score:サイドチャネル攻撃を防ぐ隔離効率。オープンソースモデルの平均スコアは85%。
  • Resource Utilization:メモリ/CPU使用率を90%以内に制御。

テスト結果のハイライト

標準データセットにおいて、Claude 3.5 Sonnetは複雑なクエリで勝利したが、Llama 3.1-405BはSGLang下で最高のコストパフォーマンスを実現し、遅延を40%削減した。グラフは以下の通り:

ISO-AUSランキング

このベンチマークはNVIDIA H100およびAMD MI300Xハードウェアと互換性があり、エッジデプロイメントをサポートしている。

業界への影響

ISO-AUSは、AIベンチマークのセキュリティ隔離分野における空白を埋め、モデルの実験室から本番環境への円滑な移行を推進している。LMSYS Orgは、Chatbot Arenaに統合し、リアルタイムのElo更新を提供すると表明している。

詳細は公式リンクを参照。