Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアは97.12点から71.47点へと下落し、降下幅は25.7ポイントに達した。

主要次元の変化

コード実行次元は昨日の100.00点から50.00点へと半減し、材料制約は93.60点から97.70点へ上昇、エンジニアリング判断は95.80点から100.00点へ上昇、タスク表現は97.40点から98.60点へ上昇した。メインランキングのスコアはコード実行と材料制約の2項目をルールに従って加重して算出されるため、今回の急落はコード実行の単一次元によって完全に決定されたものである。

変動原因の分析

Smoke評価は1日あたり10問のみ(次元あたり2問)であり、サンプル数が少ないため、抽選による変動は通常の範囲内と言える。しかしコード実行次元が1日で50ポイントを失ったことは、材料制約の4.1ポイントの小幅回復をはるかに上回っており、問題の難易度、またはモデルが特定の問題タイプに対して応答する際に明らかな不一致が生じたことを示している。エンジニアリング判断とタスク表現のサブランキング次元は同時に小幅上昇しており、コード以外のタスクにおけるモデルのパフォーマンスは依然として高水準にあることが示されている。

今回の下落が主に問題の抽選に起因するならば、それは一時的なノイズとなる。一方、モデルが同種のコード問題を処理するロジックにシステム的な偏移が生じているならば、真の能力退化を示している可能性がある。現時点では1日分のデータのみであり、両者を区別することはできない。

継続的な注視が必要か

コード実行次元はメインランキングに直接影響するため、Claude Opus 4.7の今回の下落幅によってメインランキングの順位は大幅に後退した。今後3〜5日間のSmoke評価においてこの次元のスコアを重点的に追跡し、70点を下回る状況が連続して発生した場合に、真の能力退化が存在するかどうかを判断することを推奨する。誠実性評価はpassを維持しており、モデルに回答拒否や書式エラーなどの基本的な問題は発生していないことを示している。

安定性次元は、モデルが同種の問題に複数回回答した際のスコアの標準偏差を測定するものである。Claude Opus 4.7の今回の1日における急激な変動は一貫性の低下を示しているが、これは正解率そのものとは無関係である。

1日分のSmokeデータはシグナルを提供するに過ぎず、トレンドの確認には継続的な追跡が必要である。

データソース:Winzheng (YZ Index) | Run #201 | 元データを見る