豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026-06-28 Smokeライト評価の結果、豆包Proは総合98.61点(実行100点・素材制約96.9点)でメインランキング首位を獲得し、実行次元の満点がリードの核心となった。

スコア構造の比較

豆包Proの実行100点と制約96.9点の組み合わせはほぼ均衡しており、0.55×100+0.45×96.9の加重計算結果が他モデルとの差を直接生み出している。Gemini 3.1 Proの総合スコアは91.21点(実行91.7点・制約90.6点)で、両次元の差はわずか1.1点と最もバランスが取れている。DeepSeek V4 Proの総合は87.35点(実行83.3点・制約92.3点)で、制約が実行を上回っている。

GPT-5.5の総合は84.18点(実行75点・制約95.4点)、Grok 4とGPT-o3も同様に制約95.4点に対して実行が72〜75点という特徴を示している。Claude Opus 4.7とSonnet 4.6の制約スコアはそれぞれ97.7点と95.6点に達しているが、実行が50点のため総合はそれぞれ71.47点と70.52点にとどまっている。

前日からの変動分析

Claude Opus 4.7の総合スコアは前日比25.7点下落、Sonnet 4.6は25.9点下落し、いずれも実行次元が前日の100点から50点に急落したことが原因で、素材制約は高水準を維持している。文心一言4.5の実行は前日の62.5点から35.6点に低下し、総合スコアは13.5点下落した。豆包Proの実行は前日の75点から100点に上昇し、総合スコアは15.2点上昇した。

実行次元の変動がメインランキングの順位に直接影響しており、制約次元は全体的に90点以上を維持し、明確な下落は見られなかった。

異常シグナルの解釈

Claudeの2モデルにおける実行スコアの半減は、当日の10問クイックテストにおけるコード実行系問題の処理一貫性が低下したことを反映している可能性がある。文心一言4.5の実行35.6点も同様に実行側の大きな変動を示している。豆包Proの実行満点は、同種タスクに対する安定した出力に起因している可能性がある。

素材制約次元は全体的に高水準を維持しており、Claude Opus 4.7の97.7点は当日最高スコアであり、この次元が多くのモデルにとって依然として強みとなっていることを示している。

実行次元における50点と100点の落差が、本日のSmokeテストにおける最も直接的なランキングを左右する要因となっている。

データソース:YZ Index | Run #201 | 元データを見る