Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアは96.45点から70.52点に低下し、コード実行は100.00点から50.00点に急落、マテリアル制約は92.10点から95.60点に上昇した。

単一ディメンションによる急激な変動

今回のメインスコア25.9点の下落は、ほぼ完全にコード実行ディメンションによるものである。このディメンションは前日の100.00点から50.00点へと直接50点の急落を記録した。一方、マテリアル制約ディメンションは92.10点から3.5点上昇して95.60点となり、エンジニアリング判断ディメンションは100.00点を維持、タスク表現は84.20点から87.50点へと上昇した。2つのコアメインディメンションのうち、急落が見られたのはコード実行のみである。

Smoke評価の特性と抽選の影響

Smoke評価は1日あたり10問のみで、各ディメンションにつき2問という構成上、1日あたりのスコアの標準偏差は本来大きくなりやすい。コード実行ディメンションでは今回、特定のプログラミングシナリオに敏感な問題が抽選された可能性があり、モデルが一度に50点を失う結果となった。同時期にマテリアル制約ディメンションがわずかに上昇していることからも、制約遵守に関するモデルの基礎能力に系統的な問題が生じたわけではないことがわかる。

実際の性能劣化か、それとも確率的な変動か

1日分のデータから見ると、問題の抽選による確率的な変動である可能性が高い。エンジニアリング判断ディメンションは2日連続で100.00点を維持し、タスク表現ディメンションもわずかに上昇、誠実性評価もpassを維持しており、複数ディメンションにわたる同期的な低下は見られない。実際のモデル性能劣化は通常、複数のディメンションが同時に悪化する形で現れるものであり、単一ディメンションで50点規模の孤立した急落とはならない。

継続的な観察が必要か

Claude Sonnet 4.6を翌日のSmoke評価の観察対象リストに加えることを推奨する。コード実行ディメンションが2日連続で70点を下回った場合に、正式な評価データと照合してバージョンレベルの変化が存在するかどうかを判断すべきである。現時点では1日あたり50点の下落のみをもって、モデルの能力に系統的な劣化が生じたと断定するには根拠が不十分である。

コード実行が50点に半減したことは、モデル自体が突然機能不全に陥ったというよりも、10問の抽選結果である可能性の方が高い。

データソース:Winzheng (YZ Index) | Run #201 | 元データを見る