YZ Index 2026年6月13日のSmoke軽量評価において、Claude Opus 4.7はメインランキング90.78点で首位となり、コード実行100点・素材制約79.5点を記録した。
実行満点が一般化、制約が唯一の分水嶺に
本日のランキング上位10モデルはすべてコード実行で100点を獲得しており、総合スコアの計算式「0.55×実行+0.45×制約」により、素材制約がランキングを決定する唯一の変数となっている。Claude Opus 4.7の制約79.5点、豆包Pro の78.5点、Gemini 2.5 Proの77.3点は順に0.45点差を形成しており、これがメインランキングの0.45点・0.45点・0.23点のリードに直接対応している。
文心一言4.5は実行が満点に達しなかった唯一のモデルで、実行50点・制約76.8点、メインスコアはわずか62.06点にとどまり、2位から28.27点差をつけられた。これは、実行面で崩れた場合、制約の成績が及第点であっても第一梯団への参入が困難であることを証明している。
素材制約が一斉急落、異常シグナルが集中
前日との比較で、8つのモデルの素材制約が二桁の下落を記録した。GPT-5.5の制約スコアは20.3点急落して66点となりメインランキングは6位に後退、Qwen3 Maxの制約スコアは30.3点急落して64.5点、Gemini 3.1 Proの制約スコアは34点急落し、メインランキングが13.9点下落して83.04点となった。これらの下落幅は実行面の変動をはるかに上回るものであり、当日のテスト素材が制約次元に対してより高い要求を課したことを示している。
豆包Proのメインスコアは23.9点上昇したが、これは主に実行面が前日の低水準から47.5点回復したことによるもので、制約の低下はわずか5点にとどまり、全体として上位2位以内を維持した。Gemini 2.5 Proは実行が45点回復し、制約が15.2点低下して、差し引き17.9点の獲得となり、実行面の改善が制約の損失を部分的に相殺できることを示した。
構造的特徴と安定性への懸念
現在の状況は、コード実行がすでに安定期に入っており、素材制約が高頻度で変動する項目となっていることを示している。Claude Opus 4.7は制約スコアも16.5点下落したものの、79.5点で首位を維持しており、制約の基準線が比較的高いことがわかる。GPT-5.5は制約66点かつ誠実性評価がwarnとなっており、複数モデルで制約スコアが一斉に低下する環境下ではリスクエクスポージャーがさらに大きくなっている。
文心一言4.5の実行50点は他のモデルとの間に断絶を生じさせており、単日の変動ではなく、コード実行タスクにおける継続的な弱点を露呈している。
素材制約の激しい変動がモデルの真の実力上限を浮き彫りにしつつある。実行満点は入場券に過ぎず、制約の安定性こそが決勝への切符である。
データ出典:YZ Index | Run #166 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接