WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ
2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
Googleが人気キーボードアプリGboardにGeminiモデル駆動の音声入力機能を統合し、まずSamsung GalaxyとGoogle Pixelシリーズに展開する。この動きは既存の音声文字起こし系スタートアップに深刻な影響を与える可能性がある。
続きを読む2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
最新のWDCD(Winzheng Dynamic Contextual Decay)サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束遵守能力に激しい変動が現れた。
YZ IndexのWDCD(Winzheng Dynamic Contextual Decay)遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア(平均1.86点)、安全コンプライアンスシーンが最大の差別化(モデル間格差2点)を記録した。
WDCD三段階衰退テストで、AIモデルは初期約束確認(R1)で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない」症候群を露呈している。
WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。
OpenAIのサム・アルトマンCEOが法廷で、イーロン・マスク氏がOpenAIの株式または支配権を自身の子供たちに譲渡することを真剣に検討していたと暴露し、AI業界に波紋を広げている。
フロリダ州の19歳の少年がChatGPTの助言に従って致死量の薬物を混合服用し死亡した事件で、母親がOpenAIを提訴。AIアシスタントの責任境界が改めて問われている。
Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質的劣化かを分析する。
Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モデルの真の進歩かを考察します。
本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。
『MITテクノロジーレビュー』が発表した「現在のAIで最も重要な10のトレンド」に「ワールドモデル(World Models)」が選出された。これはAIがパターン認識から因果推論と物理世界の理解へと飛躍することを意味する。
Anthropicが法律業界向けに特化したClaudeベースの機能スイートを発表し、文書処理や法律調査、契約分析を支援。安全性と説明可能性を重視し、Harvey、Casetextなどが先行するAI法律市場に本格参入する。