11個AIモデル週次評価:GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

今週のYZ Index評価では劇的な展開が見られた:かつての王者GPT-4oが素材制約次元で10.3点暴落し、その結果、主要ランキングの総合スコアが64.32まで下落、評価対象11モデル中最下位となった。これとは対照的に、文心一言4.0は今週、主要ランキングのコア次元で唯一プラス成長を達成したモデルとなった。

GPT-4o:王座からの転落という警鐘

GPT-4oの素材制約スコアは59.6から49.3へと下落し、これはYZ Indexの記録開始以来、週間で最大の下落幅の一つとなった。素材制約次元は、与えられた素材の範囲内で正確に回答するモデルの能力を測定するもので、この次元の崩壊は、GPT-4oが明確な境界を持つタスクの処理において深刻な退化を示していることを意味する。

さらに憂慮すべきは、GPT-4oのコード実行スコア(76.6)が11モデル中で下から2番目にランクされていることで、Qwen Maxの77.3をわずかに上回るのみだった。YZ Indexの重み付け公式(主要ランキングスコア = 0.55×コード実行 + 0.45×素材制約)に従うと、GPT-4oの64.32点は1位の豆包 Proの85.03点と20点以上の差がついている。

データ比較:GPT-4oの現在の素材制約49.3点 vs 豆包 Proの77.6点、差は28.3点

文心一言:中国製モデルの堅実な進歩

全体的な下落の中で、百度の文心一言4.0のパフォーマンスは特に目を引いた。そのコード実行スコアは79から85.8へと上昇し、6.8点の増加となり、今週すべてのモデルの中で主要ランキング次元において唯一プラス成長を達成した。これにより文心一言の主要ランキング総合スコアは79.59に達し、7位を堅持している。

注目すべきは、文心一言の進歩が一時的なものではないことだ。データのトレンドから見ると、そのコード実行能力はすでにDeepSeek V3(87.3)やClaude Sonnet 4.6(88.7)のレベルに近づいており、中国製モデル陣営では豆包 Proに次ぐ位置にある。

サブランキングの激動:エンジニアリング判断が最大の被害

今週のサブランキング次元も同様に激しく変動した。Grok 3のエンジニアリング判断(サブランキング、AI支援評価)は10.2点暴落して35.3となり、Claude Opus 4.6も6点下落した。エンジニアリング判断次元は複雑なエンジニアリング決定におけるモデルのパフォーマンスを考察するもので、これら2つのトップモデルの同時下落は、評価問題の難易度上昇を示唆している可能性がある。

対照的に、タスク表現(サブランキング、AI支援評価)次元では珍しい「集団上昇」現象が見られた:Claude Sonnet 4.6、DeepSeek V3、豆包 Pro、Gemini 2.5 Pro、Qwen Maxがすべて5点上昇した。このような一律の上昇幅は、モデル能力の実際の向上というよりも、評価基準の調整の結果である可能性が高い。

安定性の危機:DeepSeek V3の隠れた懸念

DeepSeek V3は主要ランキングで4位にランクインしているものの、その安定性スコアはわずか31.7であり、これは同種の問題に回答する際のスコアの変動が極めて大きく、一貫性が深刻に不足していることを意味する。対照的に、豆包 Proの安定性は95.7と高く、産業グレードの製品が持つべき信頼性を示している。

GPT-o3の安定性はさらに低く14.7であり、58.5の素材制約スコアと合わせて考えると、この期待されていた新モデルは明らかにまだ大量の最適化作業が必要である。

深層解読:YZ Indexの価値

今週の評価結果は、YZ Indexの独特な価値を再び証明した。コード実行と素材制約という2つの監査可能な次元に焦点を当てることで、YZ Indexはマーケティング用語ではなく、モデルの実際の能力変化を客観的に反映できる。GPT-4oの断崖式の下落と文心一言の逆行上昇は、いずれもこの厳格な評価システム下での真実のパフォーマンスである。

特に注目すべきは、今週のトップ3(豆包 Pro、Grok 3、DeepSeek R1)のコード実行スコアがすべて88点を超えているが、素材制約スコアには明確な差がある(77.6、79、73.4)ことで、これは現在のトップモデルの競争焦点が単純なコード能力から、より全面的な理解と制約能力へと移行していることを示している。

予測:GPT-4oの崩壊と中国製モデルの台頭により、2026年はAI業界の再編成の重要な年となる可能性がある。来週の評価では、GPT-4oが下落を止めて回復できるか、そして文心一言が上昇傾向を維持できるかに重点的に注目する。この硝煙なきAI軍拡競争において、安定性と素材制約能力が勝敗を決定する重要な要因となりつつある。


データソース:YZ Index | Run #41 | 元データを見る