文心一言の実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

文心一言の実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

Smoke本日の軽量評価で最も衝撃的なデータは、文心一言4.5の実行スコアが昨日の100から50へ直接下落し、メインランキングが73.96付近から11ポイント暴落して62.96となったことだ。これは小幅な変動ではなく、コア能力における明らかな崩壊である。

実行スコア半減の裏側:文心一言の異常シグナル

実行次元はメインランキングの55%を占める。文心一言の今回の50点は、10問のコード実行課題のうち少なくとも半分が通過できなかったことを意味する。昨日との比較を踏まえると、実行次元は1日で-50、制約次元はむしろ微増となっており、問題はコード生成と検証の段階に集中していることがわかる。考えられる原因としては、モデル更新後のツール呼び出しフォーマットへの互換性低下、または内部セキュリティポリシーの強化によりコード出力が打ち切られた可能性が挙げられる。いずれの場合も、エンジニアリング上の一貫性不足を露呈している。

GPT-o3とGPT-5.5の同時回復

GPT-o3はメインランキングで1日に35.8ポイント上昇し、実行次元+50、制約次元+18.5となり、昨日の落ち込みをほぼ完全に埋め戻した。GPT-5.5も同様に13.4ポイント上昇し、制約次元は29.8ポイント向上した。両モデルの同時回復は、OpenAIが最近推論経路に対して統一的な最適化を行ったことを示唆している。注目すべきは、両者の素材制約スコアが依然としてClaudeとは2〜3ポイントの差があり、ユーザー素材を厳密に遵守し内容を捏造しないという次元では、まだ追いつくべき余地があることだ。

Claude双璧が引き続き上位2席を独占

Claude Opus 4.7はメインランキング99.42点、実行100、制約98.7で、複数日連続で首位を維持している。Claude Sonnet 4.6はそれに続く99.01点。両モデルの素材制約はいずれも97以上で、第三グループを大きく引き離している。これはAnthropicがアライメントと制約の領域で長期的に積み重ねてきた成果を改めて証明するものだ。豆包Proは98.43点で上位5位に食い込み、制約96.5点に加え、誠実性がwarnからpassへと転じ、中国語シーンでの素材遵守能力が国際一線レベルに接近していることを示している。

中堅モデルの集団的ボトルネック

Gemini 3.1 ProとQwen3 Maxのメインランキングはいずれも92点前後で、制約スコアは82〜83の範囲にとどまっており、上位5位との差は主に実行ではなく素材制約から生じている。DeepSeek V4 Proの制約スコアも79.8点で、同じくこのボトルネックに引っかかっている。業界では明確な階層化が形成されつつある:上位5モデルは実行次元をほぼ満点近くまで仕上げており、次の段階の競争は完全に素材制約を中心に展開されるだろう。

実行スコアは速やかに修復可能だが、制約能力は長期的なアライメント投資を必要とする。

本日のデータは改めてこの判断を裏付けた。文心一言が第一グループに復帰するためには、次回の更新で実行一貫性の問題を解決する必要があり、さもなければ引き続き差を広げられることになる。


データソース:YZ Index | Run #138 | 元データを表示