AIニュース — 業界レポートとグローバルカバレッジ

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 413

レビュー

Claude Sonnet 4.6が大逆転で首位獲得！8大AIモデルのコード実行が25点暴落、業界激震の真相

2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然

Claude Sonnet 代码执行 AI评测模型暴跌

2026年5月14日 434

レビュー

WDCD大シャッフル：Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か？

最新のWDCD（Winzheng Dynamic Contextual Decay）サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束

WDCD 守约测试 AI模型评测分数变化

2026年5月13日 417

レビュー

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

YZ IndexのWDCD（Winzheng Dynamic Contextual Decay）遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア（平均1.86点）、安全コンプラ

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 431

レビュー

AI遵守の大崩壊：R3で76回崩壊、Grok4が全滅した衰退のブラックホール

WDCD三段階衰退テストで、AIモデルは初期約束確認（R1）で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない

WDCD 守约测试 AI模型衰减三轮测试

2026年5月13日 369

レビュー

WDCD遵守ランキング：Gemini 3.1 ProとQwen3 Maxが並んで首位、Grok 4は最下位に沈む！トップとボトムの差は22.5点

WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。

WDCD 守约测试 AI模型排名赢政指数

2026年5月13日 400

レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 380

レビュー

Gemini 3.1 Pro が信頼性で逆転！メインボードが15点急騰、Google AIは強力に反発か？

Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モ

Gemini 3.1 Pro 诚信评级 Smoke评测 AI模型波动

2026年5月13日 328

レビュー

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 355

レビュー

DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 415

レビュー

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 292

レビュー

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

レビュー

2026年主流AI評価ベンチマーク横断比較：YZ Index vs SuperCLUE vs OpenCompass vs C-Eval

2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク（YZ Index、SuperCLUE、OpenCompass、C-Eval）の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。

AI评测赢政指数 SuperCLUE OpenCompass

2026年5月11日 1,610

レビュー

11大AIモデルのSQL連続ログイン問題大試験：8つが満点、3つが崩壊、コード実行の格差は驚異的

一見シンプルなSQL問題が11大AIモデルの実力差を露呈した：「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複

代码执行 SQL AI模型对比连续登录天数

2026年5月11日 400

レビュー

GPT-o3、1問で100点から0点に転落、しかしメイン榜は逆に上昇

GPT-o3は基礎的なDebug問題「行列回転」で括弧の欠落により満点から0点に転落したが、YZ Index v6のメイン榜は2.1ポイント上昇した。この事故は、AI生成コードにおける「局所的な致命的失敗」のリスクを浮き彫りにしている。

GPT-o3 代码执行严格题 Debug事故

2026年5月11日 373

レビュー

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 429

レビュー

WDCDが測定するのはモデルだけでなく、業界全体の盲点

WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなか

WDCD 行业盲区评测体系模型可信度

2026年5月11日 363

レビュー

WDCD選定ガイド：企業のモデル選びでは、もう「誰が1位か」だけを問うのはやめよう

WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。

WDCD 企业选型场景矩阵模型对比

2026年5月11日 343

レビュー

なぜWDCDはAgent時代の「Crash Test」となるのか

WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。

WDCD 碰撞测试 Agent安全压力测试

2026年5月11日 381

レビュー

WDCDの警告：モデルがハード制約を提案として受け取った時、リスクは始まる

WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥であ

WDCD 硬约束软化约束分类规则与建议

2026年5月11日 340

AIレビュー

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

Claude Sonnet 4.6が大逆転で首位獲得！8大AIモデルのコード実行が25点暴落、業界激震の真相

WDCD大シャッフル：Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か？

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

AI遵守の大崩壊：R3で76回崩壊、Grok4が全滅した衰退のブラックホール

WDCD遵守ランキング：Gemini 3.1 ProとQwen3 Maxが並んで首位、Grok 4は最下位に沈む！トップとボトムの差は22.5点

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 3.1 Pro が信頼性で逆転！メインボードが15点急騰、Google AIは強力に反発か？

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

2026年主流AI評価ベンチマーク横断比較：YZ Index vs SuperCLUE vs OpenCompass vs C-Eval

11大AIモデルのSQL連続ログイン問題大試験：8つが満点、3つが崩壊、コード実行の格差は驚異的

GPT-o3、1問で100点から0点に転落、しかしメイン榜は逆に上昇

11モデル世代交代戦：首位は安定維持、Grokが最下位

WDCDが測定するのはモデルだけでなく、業界全体の盲点

WDCD選定ガイド：企業のモデル選びでは、もう「誰が1位か」だけを問うのはやめよう

なぜWDCDはAgent時代の「Crash Test」となるのか

WDCDの警告：モデルがハード制約を提案として受け取った時、リスクは始まる