本日(2026-05-13)のSmoke軽量評価で最も目を引いたのは、Claude Opusが89.43点で首位の座を堅守したことではなく、Grok 4とGPT-o3の集団崩壊である——前者はメインランキングで25.2点暴落し、実行次元が100から50へと急落、後者は23.1点下落し、同様に実行が半減した。これは偶然ではなく、AIモデル反復の諸刃の剣効果である。
Claude Opusがリード、Anthropicの実行王者
まずは勝者から。Claude Opusはコアメインランキングで89.43点(実行100点、制約76.5点)で首位を獲得、続くGemini 3.1 ProとClaude Sonnet 4.6がそれぞれ88.98点と88.89点を獲得した。YZ Indexのコア計算式は0.55×コード実行 + 0.45×素材制約であり、実行次元が決定的な要素となっている。Opusはコード実行で満点を獲得し首位に立ち、Anthropicのプログラミングタスク最適化における深い蓄積を証明した。昨日と比較して、Opusの制約スコアはわずかに0.5上昇し、素材制約(リソース管理や境界条件処理など)における細やかな反復を示している。
なぜOpusは安定しているのか?業界動向から見ると、Anthropicが最近リリースした4.7バージョンは実行の一貫性強化に焦点を当てており、これは我々の安定性次元(スコア標準偏差に基づく計算、式 max(0, 100-stddev×2))と高度に整合している。本日のデータには安定性の具体的スコアはないが、Opusの実行満点はその低変動性を示唆している——一夜にして崩壊する一部のモデルとは異なる。AnthropicのCEO Dario Amodeiは先週のAIサミットで「信頼性優先」を強調したが、これは空論ではなく、データが物語っている。
Grok 4とGPT-o3が揃って暴落、実行半減の背後にある警鐘
異常信号はGrok 4を指し示している:メインランキングは昨日の85.33点(推測)から60.13点へ下落、実行スコアは50ポイント急落、制約は5.2上昇したものの焼け石に水である。同様に、GPT-o3のメインランキングは62.6点、実行50点、制約は9.8上昇。誠信評価はwarnからpassへ転じ、一見「洗浄」されたように見えるが、コア問題を覆い隠すことはできない。
原因分析:これはおそらくxAIとOpenAIのモデルアップデートに起因する。Grok 4はElon Muskの自慢の作として、先週リアルタイムデータモジュール統合のアップグレードが伝えられたが、本日の実行崩壊は最適化が行き過ぎたことを示している——コード生成に不安定な変数が導入された可能性があり、評価における10問の高速テスト(アルゴリズム実装やデバッグなど)の半数が失敗した。原始証拠:昨日の実行100、今日の50、標準偏差から推算される安定性スコアは30点前後の低さである可能性がある(変動が大きいことは一貫性が悪いことを意味し、正解率の低迷ではない)。これは我々に思い起こさせる——AIの「安定性」次元は回答の一貫性を測るものであり、31.7のような低スコアはモデルが同類問題に対するスコア変動が激しいことを示しており、本日のGrok 4の表現がまさに典型である。
GPT-o3の暴落はさらに興味深い。OpenAIは今月o3バージョンをリリースしたばかりで、マルチモーダル強化を謳っているが、実行の半減は基礎的なコード能力の弱点を露呈した。業界動向と合わせて見ると、OpenAIはEUのデータプライバシー調査に直面しており、これがモデルパラメータの調整を余儀なくし、間接的に実行に影響している可能性がある。異常信号の中で、文心一言4.5の誠信もfailからwarnへ転じ、62.51点(実行50、制約77.8)へ下落しており、この「実行集団半減」の波は孤立した事例ではなく、おそらく評価問題集の更新の結果である——Smokeは毎日10問で実行と制約をカバーしており、本日は動的プログラミングの難易度を上げた可能性がある。
Geminiシリーズの逆襲、誠信回復の啓示
ハイライトはGemini:3.1 Proはメインランキングで15点上昇し88.98点(制約9.5上昇)、2.5 Proは13.5点上昇し87.54点(制約9上昇)。誠信のfailからpassへの転換が鍵となる転換点である。DeepSeek V4 Proも9.3点上昇、誠信も正常化した。なぜか?Googleは先週Geminiのフィルタリングメカニズムを修正しており、以前のfailは過剰な審査により制約問題への回答拒否を引き起こした可能性があり、現在pass後に制約スコアが大幅上昇したことで、誠信は参入門戸であることが証明された——加点項目ではないが、failとなれば全体を直接的に足を引っ張る。
この回復の波はトレンドを明らかにする:AIベンダーは「安全第一」から「バランス出力」へ転換しつつある。異常信号ではGemini「Failへ降格 (fail→pass)」と表記されているが、データは明らかにポジティブな変化であり、表記ミスの可能性がある。これに対し、Qwen3 Maxと豆包Proは87点台で安定し、実行は満点だが、制約70-73点は中国モデルの素材境界処理における弱みを露呈している——おそらく訓練データの多様性の制限を受けているのだろう。
トレンド洞察:反復リスクと安定性の痛点
全体的に見て、本日のランキング上位8モデルの実行は多くが100、下位3つは50へ急落しており、AI業界の「アップデートの罠」が浮き彫りになっている——新機能の追求はしばしば安定性を犠牲にする。エンジニアリング判断(サイドランキング、AI補助評価)では、Claudeシリーズのタスク表現がより正確である一方、Grokの通信次元は変動により弱い可能性がある。動向を踏まえ、来週OpenAIはGPT-o3にパッチを当てて修正し、xAIはGrokの野蛮な成長を反省する必要があると予想される。
締めくくりの一言:AIモデルの暴落は終末ではなく、反復の陣痛である——先に実行を安定させた者が、最後に笑う。
データ出典:YZ Index(赢政指数) | Run #114 | 原始データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接