5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。
Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一方、文心一言 4.5は+5ポイントという孤高の好成績を示しました。
続きを読むWDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。
WDCDの三段階減衰テストで、主要11モデルすべてがR3(第三ラウンド)で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。
Elon Musk氏が法廷でxAIがGrok訓練時にOpenAIモデルを使用したことを認め、AI業界でモデル蒸留の倫理的境界に関する議論が再燃。本記事は事実、技術、横比較、実務提言の各観点から本件を分析する。
OpenAIは、ChatGPTがカナダの大規模銃撃事件や南フロリダ大学生殺害事件で「技術的幇助者」の役割を果たしたとされる訴訟の波に直面している。実存的リスクを専門に監視するチームが社内に存在しないことが明らかになり、生成AI業界における製品責任の枠組みを揺るがす判例事件となる可能性がある。
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下位となった。
南アフリカ内務省の閣議承認済み移民・難民保護白書に、AI生成による虚偽の文献引用が発見され、高官2名が停職処分となった。独立法律事務所2社が2022年以降の全政策文書を体系的に調査する。
Metaが人形AI能力を強化するためロボティクススタートアップを買収。Winzheng Research Labは、これがメタバース叙事の冷却後、Metaが具身智能(Embodied AI)分野へ送る明確なシグナルだと分析する。
米国戦争省はSpaceX、OpenAI、Googleを含む7社のAIモデル・インフラ企業と契約を締結し、最先端AI能力を同省の機密ネットワークに展開する。これは「AIファースト」戦略の最新の一手であり、AI兵器化への論争が再び浮上している。
xAI が API 経由で2分以内に作成可能な音声クローン機能を公開し、28言語・80以上の音色を提供。技術的差別化や安全対策の不透明さが残る中、市場の参入障壁を引き下げる動きと評価される。
米映画芸術科学アカデミー(AMPAS)は2026年アカデミー賞より、AIが生成した俳優の演技や脚本内容を出品資格対象外とすることを正式発表した。AI俳優Tilly Norwoodなどが完全にオスカーから締め出されることを意味する。
TechCrunch編集チームがOtter.ai、Descript、Whisperなど主要なAI音声入力アプリを徹底テストし、認識精度、リアルタイム文字起こし速度、編集機能などの観点から総合ランキングを発表した。Otter.aiが総合首位を獲得した。
ディズニーランドは入場時の本人確認と効率化のため顔認証技術を正式導入したが、プライバシー保護団体は大規模な顔データ収集による濫用リスクを警告している。同時に、NSAによるAnthropicのMythos Previewモデルのテストや、フィンランドの未成年者がハッカー集団「Scattered Spider」への関与で起訴された件も注目を集めている。