Claude Opus 4.7メイン指標が22.6点急落、コード実行は100点から半減

Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点に下落し、一日で22.6点低下した。コード実行次元は満点100点から50点へと半減しており、今回の下落の中核的な要因となっている。

データ分解:単一次元が下落を主導

昨日のデータと比較すると、コード実行次元で-50点という極端な変動が発生し、材料制約は85.50点から96.50点へ上昇、エンジニアリング判断とタスク表現もそれぞれ16.7点と20点上昇した。メイン指標はコード実行と材料制約の加重のみで構成されているため、コード実行の崩壊が全体結果を直接決定した。

Smoke評価は毎日10問のみで、各次元2問という非常に小さなサンプル量であり、1問のミスでも50点規模の激しい変動を引き起こす可能性がある。これは安定性次元の意味と一致しており、31.7点という安定性スコア自体が、モデルが同種の問題における出力一貫性が低いことを示唆している。

変動か劣化か:3日目の検証が必要

連続3日間でコード実行次元が60点以下を維持する場合、モデルの真の能力変化と暫定的に判断できる。現時点では1日分のデータのみであり、抽選的変動の範疇に属する。明日も同じ次元の追跡を継続し、スコアが80点以上に回復する場合は、今回の下落は問題難易度の急増による可能性が高い。

注目すべきは、誠実性評価がwarnからpassに転じたことで、モデルが今回の回答で幻覚や過剰な約束を減らしたことを示しており、コード実行の失点とは対照的である。考えられるシナリオは、モデルがコードタスクにおいてより保守的な出力戦略を選択し、結果としてスコアが下がった可能性である。

業界動向における短期的観察

Anthropicは最近、Claude 4シリーズの推論アライメントと安全性トレーニングを重点的に推進しており、一部の開発者からは、複雑なコード生成シナリオで完全なコードを直接出力するよりも段階的な説明を好む傾向があるとフィードバックされている。この挙動の変化は、Smoke評価のコード実行問題の採点基準と矛盾する可能性がある。

この傾向が継続すれば、Claude Opus 4.7のプログラミング支援系アプリケーションにおける競争力は直接的な影響を受けることになる。長期的な結論を出す前に、来週の完全版評価におけるコード実行サンプル分布に注目することを推奨する。

1日で22.6点というメイン指標の変動自体は緊急警報を構成するものではないが、3日間の継続的な追跡は依然として必要な対応である。


データソース:YZ Index | Run #123 | 元データを表示