Smoke評価:Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価は本日午前3時に主流11モデルに対する10問クイックテストを完了した。メインランキングのコア計算式である「0.55×コード実行+0.45×材料制約」は、現在のAI能力の二極化を改めて裏付けている。

上位3モデルは実行満点、材料制約で差が開く

Claude Sonnet 4.6は99.78点で首位、コード実行100点、材料制約99.5点を記録した。DeepSeek V4 ProとGemini 3.1 Proは同じく99.24点で続き、実行は同様に満点だが、材料制約はいずれも98.3点。3者の差はわずか0.54点で、トップモデルがコード生成と事実制約の両面で高度に接近していることを示している。

豆包Proはメインランキング94.96点で、実行100点だが制約は88.8点。厳格な材料引用シナリオでは依然として明確な弱点があることがわかる。

7モデルが主榜74点、制約スコアが致命傷に

GPT-5.5、GPT-o3、Grok 4、Qwen3 Maxの4モデルは実行いずれも100点だが、材料制約はそれぞれ75、64.5、97、73.3点で、最終的なメインランキングはすべて74点で止まった。Grok 4は制約97点ながら誠実性評価でfailとなり引き下げられており、評価基準が誠実性のハードルを厳格に適用していることを反映している。

文心一言4.5は実行わずか50点で、唯一満点に届かなかったモデルとなり、メインランキング66.43点で最下位。コード能力の短所が露呈した。

異常変動なし、構図は固定化へ

前日比で全モデルのスコアに変化はなかった。連日のデータが示すように、現在のグループは安定期に入っている:上位3モデルは極めて高い材料制約スコアで絶対的優位を占め、中間グループは実行満点でも制約不足により90~95の区間に固定され、下位モデルは誠実性または実行のいずれかの問題に制限され、短期的に突破は困難である。

74点は実行の問題ではなく、材料制約と誠実性の二重の天井によるものだ。

業界は「コードが書ける」から「信頼できるコード」へと移行しつつある。次の段階の競争は、材料制約と誠実性評価を同時に高められるかに集中するだろう。


データ出典:YZ Index | Run #141 | 元データを表示