AIレビュー

Grok 4が89.3点で首位：2026-07-29 YZ Index Smoke速報データブリーフィング

2026年7月29日実施のYZ Index Smoke速測（10モデル対象）において、Grok 4が89.3点で当日首位を獲得した。本速測はコード実行とマテリアル制約の2次元のみを対象とした日次10問の簡易評価であり、短期シグナルの観測に適

赢政指数 Smoke快测 AI评测模型排名

23時間前 124

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

本日のSmokeベンチマークにおいて、Claude Sonnet 4.6のコード実行スコアが97.00点から75.00点へと22点急落した一方、資料制約スコアは60.20点から85.90点へと25.7点上昇した。主要ランキングの総合スコアは

Claude Sonnet 4.6 代码执行 Smoke评测维度波动

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

本日のSmokeベンチマークにおいて、DeepSeek V4 Proのコード実行スコアが100.00点から75.00点へと25点急落した一方、材料制約スコアは68.20点から95.00点へと26.8点上昇し、総合ランキングのスコアは85.6

DeepSeek V4 Pro 代码执行 Smoke评测分数波动

Gemini 3.1 Proが100点で首位：2026-07-28 Smokeクイックテストデータ速報

2026年7月28日実施のYZ Index Smokeクイックテストでは11モデルを対象に評価が行われ、Gemini 3.1 Proが主要スコア100点で首位を獲得した。コード実行・資料制約の両次元でバランスの取れた高得点を示している。

赢政指数 Smoke快测 AI评测模型排名

DeepSeek V4 Pro、材料制約スコアが31.8点急落——コード実行は69.5から100点に急上昇

DeepSeek V4 ProのSmoke評価において、材料制約スコアが31.8点急落した一方、コード実行スコアは30.5点急上昇し、ほぼ対称的な変動を示した。専門家はこれをモデルの構造的劣化ではなく、サンプリングのランダム性によるものと分

DeepSeek V4 Pro 材料约束 Smoke评测主榜波动

GPT-o3、コード実行スコアが52.5点急上昇――素材制約は15.7点下落、総合ランキングは21.8点上昇

GPT-o3が本日のSmokeベンチマークにおいて、コード実行スコアを44.50点から97.00点へと大幅に伸ばした一方、素材制約スコアは100.00点から84.30点へ低下した。総合ランキングスコアは69.48点から91.29点へと21.

GPT-o3 材料约束 Smoke评测主榜波动

GPT-o3が91.29点で首位：2026-07-27 YZ Index Smoke速報データブリーフィング

2026年7月27日実施のYZ Index Smoke速測では11モデルを対象に評価が行われ、GPT-o3が91.29点で当日首位を獲得した。本速報はコード実行と資料制約の2次元のみをカバーする1日10問の小規模テストであり、短期シグナルの

赢政指数 Smoke快测 AI评测模型排名

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD 守约测试 Claude Opus Gemini 3.1 Pro

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

WDCD 守约测试模型横评企业选型

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD v3.1パイロットテストにおける8問のv2三段階アンカー問題の結果、11モデルのR3平均誠実率はわずか50.6%にとどまった。Grok 4がR3で1.63/2を達成しゼロ崩壊を記録した一方、GPT-o3とQwen3 Maxの崩壊率

WDCD 守约测试约束衰减三轮锚点

DeepSeek V4 Pro が83.23点で首位：2026年7月26日 YZ Index Smoke クイックテスト速報

2026年7月26日のYZ Index Smokeクイックテストでは10モデルを対象に評価が行われ、DeepSeek V4 Proが83.23点で当日首位を獲得した。コード実行とマテリアル制約の2次元で構成される本テストは、短期シグナルの観

赢政指数 Smoke快测 AI评测模型排名

Claude Sonnet 4.6とGrok 4が96.98点で同率首位：2026年7月25日 Smokeクイックテストデータ速報

2026年7月25日のYZ Index Smokeクイックテストでは、11モデルを対象に評価が実施され、Claude Sonnet 4.6とGrok 4が96.98点で同率首位となった。本テストはコード実行と資料制約の2次元のみを対象とした

赢政指数 Smoke快测 AI评测模型排名

MLPerf Tiny：超低消費電力AIの重要なベンチマーク

MLPerf Tinyは、マイクロコントローラーなどの超低消費電力デバイス上での機械学習性能を公平に比較するためのベンチマークスイートであり、精度・レイテンシ・推論あたりエネルギー消費量を統一された条件で評価する。TinyMLの普及に伴い、

MLC MLPerf Tiny TinyML 边缘AI

MLPerf InferenceがAIエージェント時代へ：マルチターンAgentic Inferenceベンチマークを新規追加

MLPerf Inferenceベンチマークスイートが、LLMの実運用における最も急成長する利用形態であるマルチターンAgentic Inferenceに対応するため、新たなベンチマークを追加した。コーディングエージェントとワークフローエー

MLC MLPerf 智能体推理大模型基准

MLPerf v6.1、エッジ向けAgentic推論ベンチマークの結果を募集

MLCommonsのEdge LLM Taskforceは、MLPerf Inference v6.1においてEdge Agentic Inferenceベンチマークを新たに導入すると発表した。提出締め切りは2026年7月31日で、ハードウ

MLC MLPerf 边缘AI Agentic AI

MedPerfがGoogle Cloudの機密コンピューティングに対応：脳腫瘍AI評価を暗号化で保護

MLCommonsのMedPerfがGoogle Cloud Confidential Computingと統合し、患者データとモデルの知的財産を保護しながら脳腫瘍分割AIの評価を安全に実施できる仕組みを実証した。この統合により、データを移

MLC 医療AI 机密计算 MedPerf

Netpreme X-Mem が SGLang HiCache を高速化：TTFT を最大6.7倍改善

NetpremeチームがNetpreme X-Mem™ MPUとSGLang HiCacheの統合方案を発表。KVキャッシュ専用の高帯域幅メモリ層を追加することで、長コンテキスト・高プレフィックス再利用シナリオにおいてTTFTを最大6.7倍

LMSYS SGLang KV Cache LLM推理

DSparkがSGLangに統合：信頼度駆動による可変長検証

Speculative Decodingの高負荷時における検証コスト問題に対処するDSparkがSGLangに統合された。Semi-autoregressiveブロックドラフターと信頼度ベースの動的verify長割り当てにより、Denseモ

LMSYS SGLang DSpark Speculative Decoding

DeepSeek-V4 Flash強化学習、AMD MI355Xに対応

AMDとMilesチームが、DeepSeek-V4 Flash RLをROCm搭載のAMD Instinct MI355X GPU上でMilesフレームワークによるエンドツーエンドの強化学習トレーニングに対応させたことを発表した。4ノード構

LMSYS AMD ROCm DeepSeek-V4

SGLangが2週間でGLM-5.2を最適化：8×B300上で500 TPS超を達成

SGLangチームがGLM-5.2-NVFP4の推論サービスを2週間で大幅最適化し、8×B300・バッチサイズ1の低レイテンシ環境で500 TPS超を達成した。Spec V2、IndexShare MTP、TopK-V2など複数のランタイム

LMSYS SGLang GLM-5.2 推理优化