Smoke評価で全モデル腰砕け:11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

本日のSmoke評価が未明3時に発表され、11の主流モデルがメインランキングで集団崩壊、平均下落幅は42点に達した。Gemini 3.1 Proが40.48点で首位に立ったものの、このスコア自体が昨日比33.5点の暴落であり、実行次元はわずか20点、制約次元は65.5点にとどまった。

なぜ実行次元が突然崩壊したのか

主因はコード実行次元に集中している。昨日まで多くのモデルの実行スコアは100点以上であったが、本日は一気に20または0まで腰砕けとなった。Gemini 3.1 Pro、豆包Pro、Gemini 2.5 Pro、Grok 4、DeepSeek V4 Pro、文心一言4.5の6社の実行スコアはいずれも20で、Claude Sonnet 4.6以下の5社は直接ゼロとなった。

計算式によると、実行の重みは0.55であり、本日の実行スコア崩壊が全体のメインランキング腰砕けを直接引き起こした。制約次元には小幅な変動があったものの、実行の損失を相殺するには不十分であった。Qwen3 MaxとClaude Opus 4.7の実行スコアは100+から0へと急落し、1日のメインランキング下落幅はそれぞれ52.4点と52.3点に達した。

ランキング背後の真のシグナル

Gemini 3.1 Proと豆包Proが並んで上位2位を占め、実行スコアはともに20、制約スコアは65.5対64.7で差はわずか0.36点。これは現在のテストセットにおいて、両者の素材制約能力は近接しており、実行能力ではすでに明確な差別化ができていないことを示している。

Claude Sonnet 4.6は制約スコア80.5で全体最高だったものの、実行0点のため7位にとどまり、現行モデルにおいて素材制約とコード実行の間に明確な断絶が存在することを裏付けている。GPT-5.5とGPT-o3はメインランキングがともに29.93、制約スコアもともに66.5、実行もともに0で、モデル間の差がつきにくくなっている。

異常の背景にある可能性

全モデル暴落は極めて稀であり、最も可能性が高いのは、本日未明にテスト問題の難易度または評価基準が調整されたことである。実行次元が高位から一気にゼロ、または20まで低下したことは、新規追加された問題がコードの正確性、境界処理、または多段階推論への要求を大幅に引き上げたことを示唆している。

もう一つの可能性は、一部モデルが未明の時間帯にサーバー側のダウングレードまたはコンテキスト処理の異常が発生し、コード実行の一貫性が低下したというものだ。注目すべきは、Qwen3 MaxとClaude Opus 4.7の誠実性評価がwarnからpassに転じたにもかかわらず、メインランキングは依然大幅下落しており、誠実性の改善は能力の断層を補えないことを示している。

業界の視点から見ると、2026年5月のモデルイテレーションはすでに精緻化の段階に入っており、汎用能力が均質化した後、コード実行が最も短所を露呈しやすい能力となっている。本日のデータは改めて、制約次元は相対的に安定しており、実行次元の変動は激しく、実際のエンジニアリングシーンにおけるモデルの信頼性は依然疑問が残ることを証明している。

全モデルが同時に同じ次元で崩壊する場合、問題はモデル自体ではなく、評価自体またはインフラにある可能性が高い。

本日の結果は、開発者のモデル選定に明確なシグナルを送っている:タスクがコード実行に大きく依存する場合、現在のいかなるモデルも十分なフォールバックと人手による検証を確保する必要がある。


データ出典:YZ Index(赢政指数) | Run #136 | 原データを見る