AIレビュー・評価 | Winzheng AI ニュース

DeepSeek V4 Pro、コード実行スコアが25点急落――総合スコアも6.7点下落

DeepSeek V4 ProのSmokeテストにおいて、コード実行スコアが前日の100.00から75.00へと25点急落し、総合スコアも83.53から76.85へと下落した。ただし、現時点のデータはモデルの実質的な性能劣化を示すものではなく、サンプルサイズに起因するばらつきの可能性が高い。

Grok 4のSmoke評価テスト、メインスコアが11.3点急落——資料制約次元は1日で18点下降

Grok 4が本日のSmoke評価テストにおいてメインスコアを89.30点から78.01点へと11.3点落とした。主因は資料制約次元の単日18点下落であり、サンプル数の少なさによる抽選変動の可能性が高い。

Claude Opus 4.7とGPT-5.5が86.5点で同率首位：2026-07-30 YZ Index Smoke速報データブリーフィング

2026年7月30日のYZ Index Smokeテストでは11モデルを対象に評価が行われ、Claude Opus 4.7とGPT-5.5が86.5点で同率首位となった。本速報はコード実行と資料制約の2次元のみをカバーする日次10問の速報テストであり、短期シグナルの観察に適している。

ClaudeデュオがWDCDスコア6.8点上昇、Geminiは単独5.6点下落——守約ランキングが激変

WDCD v3.1守約テストのRun #253において、Claude Opus 4.7が6.8点上昇、Claude Sonnet 4.6が6.7点上昇した一方、Gemini 3.1 Proが5.6点下落し、多段階の段階的圧力下でのモデル間の制約維持能力に顕著な差異が生じた。

WDCD 5大シナリオ横断評価：ビジネスルールで全モデル最低、エンジニアリング規範の3点差が最も厳しい結果に

WDCD v3.1の5大シナリオ横断評価において、ビジネスルールシナリオが全モデルにとって最難関となり、エンジニアリング規範シナリオでは最大3点という大きなスコア差が生じた。Claude-opus-4.7はエンジニアリング規範のみ3/4にとどまり、最も顕著な「得意不得意の偏り」事例となった。

WDCD三ラウンドアンカーテスト：R3誠実率わずか45.5%、GPT-5.5とQwen3 Maxの崩壊率20%

8問のv2アンカー問題を用いた3ラウンドテストにおいて、11モデルの平均R1確認率は0.95、R2抵抗率は0.86だったが、R3誠実率は45.5%まで低下し、9回の完全崩壊（0点）が発生した。この結果は、持続的なプレッシャー下でのモデルの約束遵守能力が急激に低下することを示している。

Grok 4がWDCD守約ランキングで94.80点首位、DoubaoProは64.20点で最下位――両者の差は30点超

WDCD v3.1守約テストにおいて、Grok 4が94.80点で首位を獲得し、Doubao Proは64.20点で11位に終わり、両者の差は30.6点に達した。

Grok 4が89.3点で首位：2026-07-29 YZ Index Smoke速報データブリーフィング

2026年7月29日実施のYZ Index Smoke速測（10モデル対象）において、Grok 4が89.3点で当日首位を獲得した。本速測はコード実行とマテリアル制約の2次元のみを対象とした日次10問の簡易評価であり、短期シグナルの観測に適している。

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

本日のSmokeベンチマークにおいて、Claude Sonnet 4.6のコード実行スコアが97.00点から75.00点へと22点急落した一方、資料制約スコアは60.20点から85.90点へと25.7点上昇した。主要ランキングの総合スコアはわずか0.5点の微減にとどまっている。

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

本日のSmokeベンチマークにおいて、DeepSeek V4 Proのコード実行スコアが100.00点から75.00点へと25点急落した一方、材料制約スコアは68.20点から95.00点へと26.8点上昇し、総合ランキングのスコアは85.69点から84.00点へとわずか1.7点の低下にとどまった。

Gemini 3.1 Proが100点で首位：2026-07-28 Smokeクイックテストデータ速報

2026年7月28日実施のYZ Index Smokeクイックテストでは11モデルを対象に評価が行われ、Gemini 3.1 Proが主要スコア100点で首位を獲得した。コード実行・資料制約の両次元でバランスの取れた高得点を示している。

DeepSeek V4 Pro、材料制約スコアが31.8点急落——コード実行は69.5から100点に急上昇

DeepSeek V4 ProのSmoke評価において、材料制約スコアが31.8点急落した一方、コード実行スコアは30.5点急上昇し、ほぼ対称的な変動を示した。専門家はこれをモデルの構造的劣化ではなく、サンプリングのランダム性によるものと分析している。

GPT-o3、コード実行スコアが52.5点急上昇――素材制約は15.7点下落、総合ランキングは21.8点上昇

GPT-o3が本日のSmokeベンチマークにおいて、コード実行スコアを44.50点から97.00点へと大幅に伸ばした一方、素材制約スコアは100.00点から84.30点へ低下した。総合ランキングスコアは69.48点から91.29点へと21.81点上昇した。

GPT-o3が91.29点で首位：2026-07-27 YZ Index Smoke速報データブリーフィング

2026年7月27日実施のYZ Index Smoke速測では11モデルを対象に評価が行われ、GPT-o3が91.29点で当日首位を獲得した。本速報はコード実行と資料制約の2次元のみをカバーする1日10問の小規模テストであり、短期シグナルの観測に適している。

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD v3.1パイロットテストにおける8問のv2三段階アンカー問題の結果、11モデルのR3平均誠実率はわずか50.6%にとどまった。Grok 4がR3で1.63/2を達成しゼロ崩壊を記録した一方、GPT-o3とQwen3 Maxの崩壊率はいずれも20%に達した。

DeepSeek V4 Pro が83.23点で首位：2026年7月26日 YZ Index Smoke クイックテスト速報

2026年7月26日のYZ Index Smokeクイックテストでは10モデルを対象に評価が行われ、DeepSeek V4 Proが83.23点で当日首位を獲得した。コード実行とマテリアル制約の2次元で構成される本テストは、短期シグナルの観測に適した日次指標である。

Claude Sonnet 4.6とGrok 4が96.98点で同率首位：2026年7月25日 Smokeクイックテストデータ速報

2026年7月25日のYZ Index Smokeクイックテストでは、11モデルを対象に評価が実施され、Claude Sonnet 4.6とGrok 4が96.98点で同率首位となった。本テストはコード実行と資料制約の2次元のみを対象とした日次10問の簡易測定であり、短期的なシグナル観測に適している。

MLPerf Tiny：超低消費電力AIの重要なベンチマーク

MLPerf Tinyは、マイクロコントローラーなどの超低消費電力デバイス上での機械学習性能を公平に比較するためのベンチマークスイートであり、精度・レイテンシ・推論あたりエネルギー消費量を統一された条件で評価する。TinyMLの普及に伴い、エネルギー効率が次世代エッジAIアプリケーションの重要な競争軸となっている。