AIレビュー

Claude Opus 4.7が90.51点でトップ：2026-07-09 Smokeクイックテストデータ速報

2026年7月9日のWinzheng YZ Index Smokeクイックテストでは、10モデルを対象に評価が行われ、Claude Opus 4.7が90.51点で当日首位を獲得した。コード実行と資料制約の両次元でバランスの取れたスコアを記

赢政指数 Smoke快测 AI评测模型排名

2026年7月9日 233

WDCD v3.1：DeepSeek V4 Proが26.2点上昇、Claude Sonnet 4.6は5.9点下落

最新のWDCD v3.1評価において、Grok 4が95.00点で首位を維持する一方、DeepSeek V4 Proが26.2点の大幅上昇で94.00点に達し、GLM-4.6も21.8点上昇して93.60点を記録。唯一の下落モデルはClau

WDCD 守约测试模型评估生产接入

2026年7月8日 291

WDCD v3.1 五大シナリオ横断評価：業務ルールが1.3点で最下位、11モデルの得意不得意の差が2.1点

WDCD v3.1パイロット評価において、業務ルールシナリオが全シナリオ中最低得点となり、最下位のqwen3-maxはわずか1.3/4を記録した。また、doubao-proをはじめとする複数モデルでシナリオ間の得点差が最大2.1点に達する「

WDCD 守约测试业务规则场景数据边界

2026年7月8日 288

R3誠実率わずか61.4%：Claude Sonnet 4.6の崩壊率20%が三ラウンド衰退断層を露呈

8問のv2アンカー問題に対するworst-of-3サンプリングにおいて、11モデルのR3平均誠実率はわずか61.4%にとどまり、Claude Sonnet 4.6はR3崩壊率20%という最も深刻な衰退を示した。このデータは、現行主流モデルが

WDCD 守约测试模型衰减三轮施压

2026年7月8日 234

Grok 4が95点でWDCD守約ランキング首位、Claude Sonnet 4.6は64.1点で最下位

WDCD v3.1パイロット評価において、Grok 4が95.00点でトップに立ち、Claude Sonnet 4.6が64.10点で最下位となった。両者の差は30.9点に達する。

WDCD 守约测试守约测试排行榜 Grok 4 DeepSeek V4 Pro

2026年7月8日 187

DeepSeek V4 Pro が95.19点で首位：2026-07-08 Smoke 速報データブリーフィング

2026年7月8日のWinzheng YZ Index Smoke速報では、10モデルを対象に評価を実施し、DeepSeek V4 Proが95.19点で当日首位を獲得した。Smokeは毎日10問の速報テストであり、短期シグナルの観察に適し

赢政指数 Smoke快测 AI评测模型排名

2026年7月8日 341

Claude Opus 4.7 と Grok 4 が96.99点で並列首位：2026-07-07 Smokeクイックテストデータ速報

2026年7月7日のYZ Index Smokeクイックテストでは、11モデルを対象に評価を実施し、Claude Opus 4.7 と Grok 4 がともに96.99点で当日首位に並んだ。

赢政指数 Smoke快测 AI评测模型排名

2026年7月7日 269

Doubao Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

2026-07-06のWinzheng YZ Index Smokeクイックテストでは11モデルを対象に評価が実施され、Doubao Pro が83.91点で当日首位を獲得した。

赢政指数 Smoke快测 AI评测模型排名

2026年7月6日 777

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プロ

GLM-4.6 材料约束诚信评级 Smoke快测

2026年7月5日 322

Doubao Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価を実施し、Doubao Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。

赢政指数 Smoke快测 AI评测模型排名

2026年7月5日 630

SGLang におけるエージェント支援開発の初期探索

SGLang の開発においてエージェント支援開発の実践が進んでおり、CUDA クラッシュデバッグからカーネル最適化、性能ループまでをカバーする実行可能な SKILL.md やスクリプト群として工程知識を体系化する取り組みを紹介する。エージェ

LMSYS SGLang Agent开发 AIインフラ

2026年7月4日 370

Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落

YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアが84.92点から72.02点へ12.9ポイント下落し、特にコード実行ディメンションが96.30点から69.50点へ急落した。単日データの

Qwen3 Max 代码执行 Smoke评测单日波动

2026年7月4日 291

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行

2026年7月4日 299

WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ

WDCD 守约测试业务规则安全合规

2026年7月3日 313

R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊（0点）が発生した。本記事はラウンドが進むにつれてモデ

WDCD 守约测试 v3.1约束衰减 GPT-o3崩溃

2026年7月3日 310

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

WDCD 守约测试模型守约能力 Grok 4

2026年7月3日 539

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。

GPT-5.5 代码执行 Smoke 轻量评测模型结构分析

2026年7月3日 247

Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

YZ Index 2026年7月2日のSmoke軽量評価において、Gemini 3.1 Proが82.97点で1位を獲得。実行スコアが順位を左右する主要因となった。

Gemini 3.1 Pro 代码执行材料约束 Smoke 评测

2026年7月2日 511

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

WDCD 守约测试模型衰减 GPT-5.5

2026年7月1日 763

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

WDCD 守约测试模型排行榜 AI合规

2026年7月1日 816