Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

2026年6月30日 28 約3分 Winzheng Index

Claude Opus 4.7 代码执行 Smoke评测单日波动模型一致性

YZ Index 2026年6月のSmoke評価において、Claude Opus 4.7のメインスコアは前日の100.00点から本日84.01点へ低下し、コード実行次元は100.00点から直接72.80点へ落ち込んだ。

主要次元の詳細分析

今回のSmoke評価は全10問で構成されており、コード実行次元の2問の得点がその最終結果を左右する。Claude Opus 4.7のコード実行は満点100.00点から72.80点へ低下しており、この2問のうち少なくとも1問で明らかなミスが発生したことを示している。素材制約は100.00点から97.70点へ2.3点のみの低下にとどまり、モデルの指定素材への遵守能力が依然として高水準を維持していることを示した。エンジニアリング判断は90.90点から100.00点へ上昇し、タスク表現は98.60点から91.90点へ低下した。

変動性の評価

Smoke評価は1日あたり各次元2問のみであるため、1日のスコア標準偏差は本質的に大きくなりやすい。Claude Opus 4.7の素材制約はほぼ変化がなく、エンジニアリング判断はむしろ向上していることから、モデル全体の能力に系統的な劣化は見られず、問題の抽選による偶発的な変動である可能性が高い。特にコード実行次元は2問のみであるため、難易度が高い、あるいは表現が曖昧な問題が1問あるだけで27.2点もの大幅な低下を招き得る。

安定性スコア31.7点は、このモデルが同種の問題においてスコアの変動が大きいことを明確に示しており、今回のSmoke結果は安定性指標の示す傾向と一致している。

継続的な注視が必要か

1日分のSmokeデータのみではモデルの真の劣化を判断するには不十分である。同一次元の推移を3〜5日間継続して観察し、コード実行が85点を下回り続け、かつ素材制約も同時に低下している場合に初めて、詳細評価の実施を検討すべきである。1日のみの異常であれば、過度な解釈は不要である。

現時点では誠実性評価は引き続きpassであり、モデルの回答の一貫性にやや不足はあるものの、基準値には達していない。Claude Opus 4.7はエンジニアリング判断次元において当日の最高点を記録しており、複数ステップの推論を必要とするタスクにおいて依然として競争力を有することを示している。

データ出典：YZ Index | Run #205 | 元データを見る

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

主要次元の詳細分析

変動性の評価

継続的な注視が必要か

関連記事