WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
Apple は WWDC 2026 で、Gemini モデルが Siri を深く強化し、マルチモデルアーキテクチャの Apple Intelligence を同時に発表すると公表。エッジ推論によるプライバシー保護を維持しつつ、生成AI領域で
AI業界のリーダーであるOpenAIが米証券取引委員会(SEC)に秘密裏にIPO申請を提出し、同時に関連会社Worldcoinの人員削減も明らかになった。AI企業の商業化加速が資本市場で広範な注目と議論を引き起こしている。
NVIDIAのCEOであるジェンスン・フアン氏が現代自動車グループの幹部と会談し、モビリティ、先端製造、ロボット技術分野でのAI応用拡大に向けた協力深化で合意した。グローバル科技大手と伝統的自動車メーカーの身体性知能分野における協力が新たな
人工知能スタートアップのMoonshot AIが、20億ドルを目標額とする新たな資金調達ラウンドを開始し、評価額は300億ドルに達する見込み。中国AI分野における象徴的な出来事として注目を集めている。
AnthropicがMythos基盤アーキテクチャを採用した新型モデルClaude Fable 5を発表し、SWE-Benchなどのベンチマークで優れた性能を示すとともに、開発者にとって魅力的な価格戦略を打ち出しました。
木曜日の米国株テクノロジーセクターが大きく下落し、AI関連半導体株の時価総額が1日で約1.3兆ドル蒸発した。予想を上回る雇用統計とBroadcomの業績見通しが売り圧力を増幅させ、Nvidiaなどの主要銘柄が下落を主導した。
OpenAI CEOのSam Altmanが次期戦略を公表し、AGI技術を全人類の福祉に役立てる方針を改めて示した。市場では、米国政府が株式形式でOpenAIのガバナンスに参与する可能性が注目されている。
Nvidiaは韓国の複数の大手テクノロジー企業とAIインフラに関する複数の提携協定を締結し、グローバルAIインフラ分野でのさらなる拡大を示した。AIファクトリー建設、ロボット分野での協力、メモリ供給などを含む。
Apple WWDC 2026がカリフォルニア州サンノゼで開幕し、SiriのGoogle Geminiモデルとの深い連携を正式発表。AIがiOSエコシステムを再構築する転換点となる。
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。
同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。
わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。