2026年6月26日のSmoke軽量評価において、Gemini 3.1 Proの実行ディメンションが100点から50点に直接下落し、総合ランキングが前日の98.91点から29.6点暴落して69.31点となり、11モデル中唯一、実行ディメンションが合格点に達しなかったモデルとなった。
実行と制約の構造的差異がランキングを決定
本日の総合ランキングトップ10において、10モデル全てのコード実行スコアが100点を獲得し、唯一の変数は素材制約であった。Claude Opus 4.7は実行100点・制約100点で総合100点を記録。文心一言4.5は実行100点・制約97.2点で総合98.74点。Gemini 2.5 Pro、GPT-5.5、Qwen3 Maxの3モデルは実行・制約が完全に同一で、総合98.07点に並んだ。
この構造が示すのは、実行ディメンションが飽和した後は、素材制約が1点上昇するごとに総合ランキングへの寄与が約0.45点になるということだ。文心一言4.5の本日の制約スコアは97.2点で、前日比8.5点上昇しており、総合ランキングを直接4.5点押し上げ、この重み関係を検証した。
Gemini 3.1 Proの異常な構造
Gemini 3.1 Proは唯一実行ディメンションが50点しかないモデルであり、一方で制約スコアの92.9点はGPT-o3の82.4点を上回っている。これにより総合69.31点は10位の92.08点を大きく下回る結果となった。実行ディメンションの50点は、10問のコード実行問題のうち約半分しか正解できなかったことを意味し、単日における極端な変動と言える。
前日データと比較すると、Gemini 3.1 Proの前日実行スコアは100点であったが、本日は半減した一方、素材制約の低下はわずか0.9点にとどまっており、問題がコード実行環節に集中しており、全体的な能力の低下ではないことを示している。
GPT-o3とClaude Sonnetの制約スコア下落
GPT-o3の素材制約は前日の97.5点から82.4点へ単日15.1点下落し、総合ランキングも6.8点低下した。Claude Sonnet 4.6の制約は97.5点から86.7点へ10.8点下落し、総合は4.9点低下した。両モデルの実行ディメンションは引き続き100点を維持しており、問題が素材制約というサイドランキングのディメンションに集中していることを示している。
DeepSeek V4 Pro、Grok 4、豆包 Proの3モデルの制約スコアはそれぞれ93.8点、92.4点、94.3点で、いずれも中間帯に位置し、総合スコアは97点前後で安定しており、大きな変動は見られなかった。
安定性と可用性のシグナル
本日のデータでは、Gemini 3.1 Proの実行ディメンションの標準偏差が他のモデルを大幅に上回り、安定性ディメンションはわずか31.7点にとどまり、単日のスコア変動が大きいという特徴を裏付けた。他の10モデルの実行ディメンションは全て100点であり、より高い一貫性を示している。
実行ディメンションが崩壊した場合、素材制約がどれほど高くても総合ランキングの順位を取り戻すことはできない。
Claude Opus 4.7は連続して両ディメンション100点を維持しており、現在もSmoke軽量評価において満点を達成した唯一のモデルである。
データ出典:YZ Index | Run #198 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接