本日のSmoke軽量評価で最も目を引いたシグナルは、素材制約次元の一斉崩壊である。11モデルのうち9つで制約スコアが昨日より18点超下落し、下落幅最大のDeepSeek V4 Proは29点も下げた。
実行は完璧でも全体を救えず
Grok 4、Claude Sonnet 4.6、Claude Opus 4.7の3社は実行次元で全て100点を獲得したものの、制約スコアは58〜59のレンジに留まった。「実行0.55+制約0.45」の公式に従うと、これがメインランキングのスコアを81点前後にまで引き下げる結果となった。Grok 4は最終的に81.55点で首位、Claude Sonnet 4.6は81.28点でその直後につけ、両者の差はわずか0.27点。勝敗はほぼ実行の0.55ウェイトで決まった形だ。
異常な脱落者と誠実性の閾値
文心一言 4.5は本日実行が100点に戻ったが、制約は55.8点まで下落、同時に誠実性もpassからfailに転落しており、典型的な「実行で稼ぐも制約で足を引っ張られる」ケースとなった。豆包 Proはさらに極端で、メインランキングが一日で37.2点も暴落、実行はそれまでの高水準から50点まで急落、制約も同時に21.5点下落した。これは本日の10問において、モデルに系統的な出力不安定が発生したことを示している。
業界動向と考えられる原因
近期、複数のベンダーが「ハルシネーション削減」と「引用ソース明示」を強調しているが、本日の評価結果から見ると、実際の実装効果は理想的とは言えない。制約次元の暴落は、おそらくテストセットに外部素材との厳密な照合を要する問題が追加され、モデルの回答に出典のない推論が増えたためと考えられる。DeepSeek、豆包、Geminiシリーズの下落が特に集中しており、これらのモデルが軽量級クイックテストシーンにおける知識境界の制御がまだ十分に安定していないことを示唆している。
注目すべきは、Qwen3 Maxは4位だが、制約59.5点は全モデル中最高であり、素材引用において依然として一定の優位性があることが示された点だ。一方、Gemini 2.5 ProとGemini 3.1 Proは実行・制約ともに50〜59点にとどまり、2日連続で最下位、差は20点以上に広がっている。
素材制約が全モデル共通の弱点となったとき、実行スコアがどれほど高くとも、それは砂上の楼閣に過ぎない。
本日のデータが最も直接的に示すのは、モデルベンダーは実行レベルでの満点だけを追求するのではなく、実際の引用と境界制御により多くの投資を行う必要があるということだ。
データ出典:YZ Index | Run #128 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接