文心一言がメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

2026-06-22 Smoke軽量評価テストにて、GPT-5.5はメインランキング100点・実行100点・制約100点、GPT-o3も同様にメインランキング100点・実行100点・制約100点を記録し、両者は満点で並んで首位となった。

満点モデルの構造的特徴

GPT-5.5とGPT-o3はコード実行および材料制約の両次元においていずれも100点を達成し、core_overall計算式(0.55×実行+0.45×制約)のもとで完璧なバランスを実現した。Claude Opus 4.7はメインランキング99.01点、実行100点・制約97.8点となり、制約側でなお0.2点の差があることが示された。

実行と制約の強弱の組み合わせによる差異

4位から7位のClaude Sonnet 4.6、豆包Pro、Gemini 3.1 Pro、Grok 4はいずれもメインランキング98.83点、実行100点、制約97.4点となった。DeepSeek V4 Proはメインランキング97.8点、実行100点・制約95.1点で、制約側が0.45の重みのもとで全体スコアを引き下げた。

Qwen3 Maxはメインランキング85.96点、実行100点・制約68.8点で、制約側が上位モデルを大きく下回った。Gemini 2.5 Proはメインランキング71.33点、実行はわずか50点・制約97.4点で、実行側が主な弱点となった。文心一言4.5はメインランキング47.98点、実行50点・制約45.5点で、両次元ともに低位にとどまった。

前日比における異常な変動

文心一言4.5のメインランキングは前日比40.3点下落し、実行31.3点低下・制約51.3点低下となった。Gemini 2.5 Proはメインランキングが28点低下し、実行は50点低下した。Qwen3 Maxはメインランキングが5.1点上昇したものの、制約は26.7点低下し、実行は31.2点上昇した。

Claude Sonnet 4.6はメインランキングが2.3点上昇し、制約は5.2点上昇した。豆包Proはメインランキングが2.2点上昇した。本日の評価テストでは実行100点のモデルが多かったが、制約側のスコア分布は100点から45.5点まで幅広く分散した。

異常シグナルの構造的解釈

Qwen3 Maxの材料制約が26.7点急落した後もメインランキングは85.96点を維持しており、実行100点が全体を下支えする効果が示された。Gemini 2.5 Proの実行側は前日の高水準から50点まで回落し、これが直接的にメインランキングの28点低下をもたらした。文心一言4.5は実行と制約が同時に大幅に低下し、core_overallが0.55と0.45の二重の重みの影響を受け、全体の下落幅が最大となった。

これらの変動は当日10問のクイックテスト結果のみを反映しており、実行と制約の組み合わせの差異が、Smoke評価テストにおける各モデルの即時ランキング順位を決定している。

実行100点と制約45.5点の差が、文心一言4.5の本日のメインランキング47.98点という順位を決定づけた。

データ出典:YZ Index | Run #191 | 元データを見る