YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアは96.00点から79.50点へ低下し、メインランキングは96.83点から90.78点へ下落した。
単日データの比較
コード実行は97.50点から100.00点へ上昇、材料制約は96.00点から79.50点へ低下、エンジニアリング判断は94.00点から76.50点へ低下、タスク表現は92.50点から97.50点へ上昇、誠実性評価はpassを維持した。
抽選による変動かモデルの劣化か
Smokeテストは1日あたりわずか10問、各ディメンション2問であり、サンプル数が少ないため単日スコアの標準偏差は比較的大きい。材料制約とエンジニアリング判断が同時に16点超の下落を示したことは、典型的な抽選変動の範囲を超えており、真の能力劣化かどうかを判断するためには今後3日間のデータを継続的に観察する必要がある。
コード実行とタスク表現の2つのディメンションはむしろ向上しており、モデルが一部のタスクでは依然として高い水準を維持していることを示している。問題は、厳密な材料引用が求められるシナリオに集中している。
重点的に注目すべきか
現時点では単日データのみであり、Claude Opus 4.7に系統的な劣化が生じたと判断するには不十分である。しかし、材料制約とエンジニアリング判断が同時に大幅下落したことで、メインランキングの順位に明確な影響が生じており、当該モデルを毎日のトラッキングリストに追加することを推奨する。
今後3日間で材料制約スコアが90点以上に回復しない場合、制約性タスクにおける安定性に問題が生じたと初期的に判断できる。
1回のSmoke異常はモデルの崩壊を意味しないが、2日連続で材料制約が低水準となれば、Claude Opus 4.7のメインランキングにおける地位を直接的に揺るがすことになる。
データソース:Winzheng (YZ Index) | Run #166 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接