Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月に実施された11モデルの実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアはB日の100.00点から本日72.50点へ下落し、コード実行ディメンションは100.00点から50.00点へ直落した。

単日データの詳細分析

コード実行ディメンションで-50点の変動が発生し、素材制約ディメンションは100.00点を維持、エンジニアリング判断ディメンションは83.40点から100.00点へ上昇、タスク表現ディメンションは100.00点を維持した。これによりメインランキングスコアが27.5点下降したが、誠実性評価は引き続きpassとなっている。

変動要因の判定

Smokeテストは1日あたり10問のみで、ディメンションごとに2問ずつ出題されるため、単日の抽選の差異によってスコアが大きく変動する可能性がある。今回のコード実行ディメンションでは2問ともに不合格となった可能性があり、昨日は2問とも合格していたことが、直接的に50点の差を生じさせた。素材制約ディメンションは2日連続で満点であり、このディメンションにおけるモデルの出力が依然として制約要件を満たしていることを示している。

エンジニアリング判断ディメンションはむしろ16.6点上昇し、タスク表現ディメンションは変化なしであったことから、モデル全体の能力に系統的な退化は生じていないことが示唆される。単一ディメンションで50点の差が生じたことは、モデルのパラメータや学習内容の変更よりも、問題難易度のランダムな分布によるものと考えられる。

継続的な観察の必要性

今後3日間のSmokeテストでコード実行ディメンションが70点を下回り続けた場合は、正式な長期ランキングによる再テストに移行する必要がある。現時点での単日データは抽選による変動を示しているに過ぎず、モデルの真の能力低下を判定するには不十分である。素材制約ディメンションが満点を維持していることは、モデルの基礎能力が依然として正常な範囲内にあることをさらに裏付けている。

日次クイックテストの標準偏差が大きい場合、単日のスコアをそのままモデルの長期的なパフォーマンスと同一視すべきではない。今回のClaude Opus 4.7の変動はコード実行の1ディメンションに集中しており、その他のディメンションは安定または上昇しているため、全体としては依然として許容可能な変動範囲内にある。

単日のコード実行スコア半減は必ずしも退化のシグナルではなく、3日連続の低迷こそが真の警戒信号である。

データ出典:Winzheng (YZ Index) | Run #195 | 元データを見る