AI遵守の大崩壊:R3で76回崩壊、Grok4が全滅した衰退のブラックホール
WDCD三段階衰退テストで、AIモデルは初期約束確認(R1)で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない
WDCD三段階衰退テストで、AIモデルは初期約束確認(R1)で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない
WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。
Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質
Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モ
本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。
微软CEOサティア・ナデラ氏が「イーロン・マスク対OpenAI」訴訟で証言。本件はAI基盤インフラの支配権、非営利ミッションと商業拡張の両立可能性、AIガバナンスの監査可能性という大規模モデル時代の核心的課題を浮き彫りにしている。
AnthropicはClaude憲法のオーディオブック版を発表し、AI透明性を推進する一方、Sonnet 4.5モデルの突然の廃止が憲法の福祉原則に反するとして議論を呼んだ。本稿ではYZ Index v6に基づき、その革新性と課題を専門的に
OpenAIが2026年5月11日に発表したDaybreak計画は、AIを活用したネットワークセキュリティ強化を目指すが、過去のモデル廃止や誤用事例から信頼性への疑問が浮上している。本記事ではYZ Index v6評価フレームワークを用いて
DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。
Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。
本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション
2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク(YZ Index、SuperCLUE、OpenCompass、C-Eval)の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。
本記事では、マルチターン会話においてAIモデルがシステムプロンプトの制約を徐々に無視するようになる「指示の減衰」現象を紹介し、その測定のために設計された新しいベンチマーク「WDCD」と、11の最先端モデルの評価結果を解説します。
一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複
GPT-o3は基礎的なDebug問題「行列回転」で括弧の欠落により満点から0点に転落したが、YZ Index v6のメイン榜は2.1ポイント上昇した。この事故は、AI生成コードにおける「局所的な致命的失敗」のリスクを浮き彫りにしている。
2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。
今週の215件の翻訳タスクは4つのモデルによって完了され、抽出した3件のブラインド評価で claude-sonnet-4.6 が平均9/10点で総合最優秀となりました。
WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなか
WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。
WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。