2026年6月5日のSmoke軽量評価結果によると、11モデル中9モデルが主ランキングで77.5点の同点となり、稀に見る引き分け状態が生じた。これらの共通点は、コード実行次元で全モデルが満点100点を獲得した一方、素材制約次元では一様に50点しか取れなかったことである。
並列の裏にある真のシグナル
core_overallの計算式は0.55×コード実行+0.45×素材制約である。9モデルが実行次元を満点にしながら、制約次元では半分しか得られなかったことは、テストにおいてコードタスクは現在の主流モデルにほぼ攻略されている一方、素材制約は依然として中途半端な水準に留まっていることを意味する。
Claude Opus 4.7、DeepSeek V4 Pro、豆包Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、Grok 4、Qwen3 Maxがすべてこのスコアラインに該当する。これらは昨日の評価でも同じパフォーマンスを示しており、2日連続で変動がない。
素材制約が一斉に50点で止まる理由
素材制約次元は主に、モデルが与えられた素材に厳密に従って回答し、捏造せず、逸脱しないかを評価する。50点ということは、半数の問題でモデルが依然として軽微な逸脱や外部知識の補完を行っていることを意味する。これはコード実行の満点と鮮明な対比をなしており、モデルが「コードを書ける」ことと「与えられた素材だけでコードを書く」ことの間に依然として明確な隔たりがあることを示している。
文心一言4.5は素材制約がわずか30点で、50点を下回る唯一のモデルとなり、主ランキングを直接68.5点まで引き下げた。Claude Sonnet 4.6は実行次元でも50点しか取れず、主ランキング全体で50点、第一グループから27.5点遅れている。
業界的意義:ベンチマークは飽和段階に突入
9モデルが同時に実行次元で満点を獲得したことは、Smokeの現在のコード問題がトップモデルに対して識別力を失っていることを示している。今後の評価で問題難易度を引き上げたり、より複雑な複数ファイル依存シナリオを追加しなければ、実行次元では満点の集中状態が続くだろう。
素材制約が50点という普遍的な水準は、モデル訓練における「文脈への忠実性」のアライメントが依然として不十分であることを示している。これは現在業界が重視するRAGやAgentツール呼び出しシナリオと密接に関連している――モデルが「発揮」する勇気があるほど、制約次元で点を失いやすくなる。
9つのトップモデルが同じ10問のセットで完全に一致したスコア分布を示したとき、本当に露呈しているのはモデルの能力ではなく、評価基準そのものの反復更新の必要性である。
本日の評価には異常シグナルはなく、全モデルが昨日のスコアと完全一致しており、安定性次元では新たなデータ更新は行われていない。
短期的には、素材制約が次の段階のモデル反復における主戦場となるだろう。長期的には、Smokeはより難易度の高い実行問題をより早く投入する必要があり、そうでなければ並列現象はさらに増加していくだろう。
データ出典:YZ Index | Run #148 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接