YZ Index 2026年6月のSmoke評価において、Claude Opus 4.7のメインスコアは前日の100.00点から本日84.01点へ低下し、コード実行次元は100.00点から直接72.80点へ落ち込んだ。
主要次元の詳細分析
今回のSmoke評価は全10問で構成されており、コード実行次元の2問の得点がその最終結果を左右する。Claude Opus 4.7のコード実行は満点100.00点から72.80点へ低下しており、この2問のうち少なくとも1問で明らかなミスが発生したことを示している。素材制約は100.00点から97.70点へ2.3点のみの低下にとどまり、モデルの指定素材への遵守能力が依然として高水準を維持していることを示した。エンジニアリング判断は90.90点から100.00点へ上昇し、タスク表現は98.60点から91.90点へ低下した。
変動性の評価
Smoke評価は1日あたり各次元2問のみであるため、1日のスコア標準偏差は本質的に大きくなりやすい。Claude Opus 4.7の素材制約はほぼ変化がなく、エンジニアリング判断はむしろ向上していることから、モデル全体の能力に系統的な劣化は見られず、問題の抽選による偶発的な変動である可能性が高い。特にコード実行次元は2問のみであるため、難易度が高い、あるいは表現が曖昧な問題が1問あるだけで27.2点もの大幅な低下を招き得る。
安定性スコア31.7点は、このモデルが同種の問題においてスコアの変動が大きいことを明確に示しており、今回のSmoke結果は安定性指標の示す傾向と一致している。
継続的な注視が必要か
1日分のSmokeデータのみではモデルの真の劣化を判断するには不十分である。同一次元の推移を3〜5日間継続して観察し、コード実行が85点を下回り続け、かつ素材制約も同時に低下している場合に初めて、詳細評価の実施を検討すべきである。1日のみの異常であれば、過度な解釈は不要である。
現時点では誠実性評価は引き続きpassであり、モデルの回答の一貫性にやや不足はあるものの、基準値には達していない。Claude Opus 4.7はエンジニアリング判断次元において当日の最高点を記録しており、複数ステップの推論を必要とするタスクにおいて依然として競争力を有することを示している。
データ出典:YZ Index | Run #205 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接