Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の本日未明のデータが発表され、Claude Sonnet 4.6がメインランキング91.77点で堂々の首位、コード実行100点、素材制約81.7点を記録した。この成績は主に素材制約次元での明確な優位性に由来し、2位のClaude Opus 4.7を2.3点上回った。

実行次元では集団満点、GPT-o3が唯一の足かせに

11モデル中10モデルがコード実行100点を獲得し、GPT-o3のみ50点に留まった。これが直接的な原因となり、メインランキングはわずか62.83点で最下位となった。計算式によれば、実行の重みは0.55であり、GPT-o3はこの部分での損失が27.5点を超え、素材制約がもたらすあらゆる優位性を大きく上回る。

素材制約が真の順位を決定、Claude兄弟が上位2位を独占

上位5位中4社が実行同点の100点であり、素材制約が唯一の変数となった。Claude Sonnet 4.6の81.7点は、Gemini 3.1 ProとGrok 4を2.9点引き離している。Gemini 3.1 ProとGrok 4は3位タイで、素材制約は同じく77.5点であり、両者の制約遵守には依然として定量可能な差が存在することを示している。

昨日の大暴落と本日の急騰が共存、モデルイテレーション信号が顕著

Claude Opus 4.7のメインランキングは昨日比61.3点上昇、Qwen3 Maxも57.4点上昇した。実行が80点から100点に跳ね上がったGrok 4と合わせて見ると、一部のモデルは昨夜、対象を絞った微調整やプロンプトエンジニアリングの最適化を実施した可能性がある。ただしこの単日60点級の変動は、Smokeの10問速測が小サンプルに敏感である特性も裏付けている。

誠実性評価が最大のリスクポイントに、passを維持したのはわずか3モデル

本日、誠実性評価がpassとなったのはGemini 3.1 Pro、GPT-5.5、GPT-o3の3社のみ。その他8社はすべてwarnであり、DeepSeek V4 Proに至ってはwarnから直接failに降格した。素材制約81.7点のClaude Sonnet 4.6もwarnの判定に留まっており、高得点モデルでも引用の正確性や指示遵守において潜在的リスクが残ることを示している。

総合的に見ると、コード実行はすでにプラトー期に入っており、素材制約が現在の主戦場となっている。DeepSeekの誠実性fail信号は継続的な追跡に値し、次回も低位を維持すれば、企業向けシナリオでの採用に影響を与える可能性がある。

実行満点はもはや標準装備、素材制約81.7点こそがClaudeの真の堀である。

データソース:YZ Index | Run #137 | 元データを見る