AIレビュー

MLPerf InferenceがAIエージェント時代へ：マルチターンAgentic Inferenceベンチマークを新規追加

MLPerf Inferenceベンチマークスイートが、LLMの実運用における最も急成長する利用形態であるマルチターンAgentic Inferenceに対応するため、新たなベンチマークを追加した。コーディングエージェントとワークフローエー

MLC MLPerf 智能体推理大模型基准

MLPerf v6.1、エッジ向けAgentic推論ベンチマークの結果を募集

MLCommonsのEdge LLM Taskforceは、MLPerf Inference v6.1においてEdge Agentic Inferenceベンチマークを新たに導入すると発表した。提出締め切りは2026年7月31日で、ハードウ

MLC MLPerf 边缘AI Agentic AI

MedPerfがGoogle Cloudの機密コンピューティングに対応：脳腫瘍AI評価を暗号化で保護

MLCommonsのMedPerfがGoogle Cloud Confidential Computingと統合し、患者データとモデルの知的財産を保護しながら脳腫瘍分割AIの評価を安全に実施できる仕組みを実証した。この統合により、データを移

MLC 医療AI 机密计算 MedPerf

Netpreme X-Mem が SGLang HiCache を高速化：TTFT を最大6.7倍改善

NetpremeチームがNetpreme X-Mem™ MPUとSGLang HiCacheの統合方案を発表。KVキャッシュ専用の高帯域幅メモリ層を追加することで、長コンテキスト・高プレフィックス再利用シナリオにおいてTTFTを最大6.7倍

LMSYS SGLang KV Cache LLM推理

DSparkがSGLangに統合：信頼度駆動による可変長検証

Speculative Decodingの高負荷時における検証コスト問題に対処するDSparkがSGLangに統合された。Semi-autoregressiveブロックドラフターと信頼度ベースの動的verify長割り当てにより、Denseモ

LMSYS SGLang DSpark Speculative Decoding

DeepSeek-V4 Flash強化学習、AMD MI355Xに対応

AMDとMilesチームが、DeepSeek-V4 Flash RLをROCm搭載のAMD Instinct MI355X GPU上でMilesフレームワークによるエンドツーエンドの強化学習トレーニングに対応させたことを発表した。4ノード構

LMSYS AMD ROCm DeepSeek-V4

SGLangが2週間でGLM-5.2を最適化：8×B300上で500 TPS超を達成

SGLangチームがGLM-5.2-NVFP4の推論サービスを2週間で大幅最適化し、8×B300・バッチサイズ1の低レイテンシ環境で500 TPS超を達成した。Spec V2、IndexShare MTP、TopK-V2など複数のランタイム

LMSYS SGLang GLM-5.2 推理优化

SGLang と Miles が Inkling を初日からサポート：975Bのマルチモーダル最先端モデルが公開

SGLang Team と Thinking Machines Lab は、975Bパラメータのマルチモーダルモデル Inkling を SGLang と Miles で初日からサポートすると発表した。推論サービス、カーネル最適化、投機的デ

LMSYS SGLang Inkling 多模态模型

MilesがOPDを導入：蒸留をポストトレーニングのプリミティブへ

MilesチームがOn-Policy Distillation（OPD）をコア機能としてシステムに統合し、教師モデルの効率的な推論行動を学生モデルへ転移させることに成功した。単一の8×NVIDIA B200ノード上でQwen3.5-35B-

LMSYS Miles OPD 模型蒸馏

Grok 4が84.21点で首位：2026年7月24日 YZ Index Smoke速報データブリーフィング

2026年7月24日のYZ Index Smoke速測では10モデルを対象に評価が行われ、Grok 4が84.21点で当日首位を獲得した。Smoke速測は毎日10問の小規模テストであり、短期シグナルの観測に適している。

赢政指数 Smoke快测 AI评测模型排名

GLM-4.6、材料制約で93.30点を記録も誠実性評価はfail――コード実行25.00点が総合ランキングの足を引っ張る

2026年7月23日実施のRun#243 Smokeテストにおいて、GLM-4.6は総合ランキング55.74点を記録。材料制約で93.30点の高得点を挙げた一方、コード実行は25.00点にとどまり、誠実性評価はfail（プローブ30.00点

GLM-4.6 诚信评级代码执行材料约束

2026年7月23日 119

Claude Opus 4.7が96.99点で首位：2026-07-23 YZ Index Smoke速報データブリーフィング

2026年7月23日のYZ Index Smoke速測では11モデルを対象に評価が行われ、Claude Opus 4.7が96.99点で当日首位を獲得した。本速測はコード実行と資料制約の2次元のみをカバーする小サンプルの日次シグナルである。

赢政指数 Smoke快测 AI评测模型排名

2026年7月23日 207

GLM-4.6がWDCDで13.7点急伸、GPT-o3は6.9点下落——守約Top圏の序列が再編

最新のWDCD v3.1守約テストにおいて、GLM-4.6が13.7点上昇して92.00点に達した一方、GPT-o3は6.9点下落して87.10点となり、上位5モデルの内部順位が大きく塗り替えられた。

WDCD 守约测试模型评估 AI合规

2026年7月22日 251

リソース制限シナリオで最低1.55点：11モデルのWDCD契約遵守テスト、最大スコア差は2.45点

WDCD v3.1の契約遵守テストにおいて、リソース制限シナリオでgpt-5.5が1.55/4と最低スコアを記録し、全5シナリオ中の最大スコア差は2.45点に達した。モデルの契約遵守能力はシナリオ固有の特性であり、単一シナリオの成績から全体

WDCD 守约测试模型横评资源限制

2026年7月22日 217

R3誠実率わずか40.9%：WDCDで4モデルがビジネスルール項目で0点崩壊

v2アンカー問題8問のみを対象とした3ラウンドテストにおいて、11モデルのR3平均誠実率はわずか40.9%にとどまり、4モデルがR3で完全崩壊（0点）を記録した。崩壊事例はすべてビジネスルール類の制約に集中している。

WDCD 守约测试约束衰减业务规则

2026年7月22日 210

Grok 4が93.80点でコンプライアンス遵守首位、Doubao Proが67.30点で最下位——両者の差は26.5点

WDCD v3.1コンプライアンス遵守テストにおいて、Grok 4が93.80点で11モデル中最高得点を記録し、Doubao Proが67.30点で最下位となった。両者の差は26.5点に達し、多ターン段階的プレッシャー下での制約保持能力に大

WDCD 守约测试 AI模型评估约束遵守能力

2026年7月22日 156

GLM-4.6の誠実性評価がpassからfailに転落、コード実行スコアは47点急上昇

GLM-4.6は本日のSmoke評価テストにおいて誠実性評価がpassからfailに急落した一方、コード実行スコアが50.00点から97.00点へと47点上昇し、メインランキング総合スコアも62.83点から74.00点に改善した。

GLM-4.6 诚信评级 Smoke 评测代码执行

2026年7月22日 159

GPT-o3のSmokeベンチマーク総合スコアが急落8.3点――コード実行は100点から88.3点へ

GPT-o3が本日のSmokeベンチマークで総合スコアを昨日の96.27点から87.94点へと8.3点落とした。コード実行・工程判断の両次元が大幅に下落し、誠実性評価も「pass」から「warn」に転じた。

GPT-o3 代码执行 Smoke评测主榜波动

2026年7月22日 168

Grok 4が98.35点で首位：2026年7月22日 YZ Index Smoke速報データ

2026年7月22日のYZ Index Smoke速測では11モデルを対象に評価が行われ、Grok 4が98.35点で当日首位を獲得した。Smokeは1日10問の速測であり、短期的なシグナルの観測に適している。

赢政指数 Smoke快测 AI评测模型排名

2026年7月22日 182

Claude Opus 4.7、Smoke評価でメインスコアが26.1ポイント急落——コード実行と資料制約の両次元で失守

本日のSmoke評価において、Claude Opus 4.7のメインスコアが100.00点から73.92点へと26.1ポイント下落した。コード実行・資料制約の両次元で25ポイント以上の降下が確認されたが、小サンプルによる変動の可能性が高いと

Claude Opus 4.7 代码执行 Smoke评测材料约束

2026年7月21日 199