AIレビュー

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が

WDCD 守约测试模型选型资源限制

2026年6月10日 573

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く

WDCDテストで明らかになった衝撃の事実：大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で

WDCD 守约测试 AI模型测试上下文衰减

2026年6月10日 500

67.5点で三強並列首位、Grok4はわずか50点で最下位 WDCD遵守ランキング

WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4とERNIE Bot 4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。

WDCD 守约测试 Claude Sonnet 模型约束能力

2026年6月10日 556

Claude Sonnet 4.6が97.53点でトップ、材料制約でERNIE Botと40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 471

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5とERNIE Bot 4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 515

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。

execution grounding 工程判断模型排序

2026年6月8日 419

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。

代码执行材料约束二叉树序列化工程实现

2026年6月8日 539

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。

代码执行材料约束括号匹配调试对比

2026年6月8日 554

11個のAIが同一のSQL重複決済問題を解く：満点はわずか4個、7個は0点

同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。

代码执行豆包 Pro SQL自连接重复支付检测

2026年6月8日 497

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 496

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 421

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

Claude Sonnet 4.6はv6評価において、メインボードのスコアが77.98から87.24へ上昇した一方、SQL厳格問題「重複支払い疑い識別」では100点から0点へ急落した。この矛盾は、現行の最適化方向が「カバレッジ」に偏り、「厳

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 449

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、Doubao Proがそれに続いた。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 508

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 602

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。

Claude Opus 4.7 稳定性 Smoke 评测诚信评级波动

2026年6月7日 529

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 562

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。ERNIE Bot 4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さ

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 569

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 761

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

WDCD 守约测试模型偏科企业选型

2026年6月3日 664

11モデルWDCD三段階テスト：R1で95%が約束、R3で65回の直接崩壊

WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。

WDCD 守约测试三轮衰减模型诚信

2026年6月3日 697