Smokeクイックテスト:文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeクイックテスト:文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果が明確に示すように、コード実行次元はすでに飽和に近づいている。11モデル中10モデルが100点を獲得し、GPT-5.5のみが50点に落ち込み、メインランキングを59.99まで直接引き下げた。

同率首位の実態的な差

文心一言4.5とGrok 4はともに99.24点で同率首位となり、素材制約スコアもいずれも98.3だった。両者は10問のクイックテストでわずか1問のみ失点しており、失点した問題は完全に異なっていることから、現在の制約能力は極めて小さな差異の段階に入っていることがわかる。

Claude Opus 4.7はそれに続き98.88点、制約は97.5。豆包ProとGPT-o3はともに98.65で、同様に実行は満点、制約は97点だった。上位6モデルの制約スコアの区間はわずか96.3〜98.3の間にあり、実質的な区別度はすでに非常に限定的となっている。

GPT-5.5の異常な低スコア

GPT-5.5は唯一、実行次元で不合格となったモデルだ。実行スコア50点は、コード実行系の問題で少なくとも半数を間違えたことを意味し、これは昨日の同種クイックテスト結果と一致しており、軽量コードタスクにおける継続的な弱点を示している。

その他のモデルは実行次元で全員満点を獲得しており、Smokeの現在の10問のコードタスクは主流モデルに対してもはや有効な区別をもたらさなくなっていることを示している。今後のクイックテストで差を広げるには、問題の複雑度を高めるか、多段推論チェーンを追加する必要があるかもしれない。

素材制約が唯一の変数に

本日のメインランキングの順位は、ほぼ完全に素材制約によって決定されている。Gemini 3.1 Proの制約は87.3、Qwen3 Maxは83.3、DeepSeek V4 Proは82点、Gemini 2.5 Proは73.3点。制約スコアが5点下がるごとに、メインランキングはおおむね2.2〜2.5点下がっており、ウェイトの影響が明確に見て取れる。

すべてのモデルの誠実性評価はpassであり、異常信号はなく、安定性も平穏を維持している。業界的視点から見ると、国産モデルは素材制約において海外クローズドソースモデルと正面から競合する位置に達しており、文心一言4.5と豆包Proのパフォーマンスがこのことを最も直接的に証明している。

実行次元が全モデル満点となった後は、素材制約のわずかな向上のひとつひとつが、メインランキング順位の決定的要因となるだろう。

データ出典:YZ Index | Run #147 | 元データを見る