Claude Sonnet 4.6、YZ Index Smokeランキングで15.3点急落――コード実行が1日で25点下落

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインランキングスコアが97.84点から82.52点へと下落し、1日の降下幅は15.3点となった。

主要ディメンションの変化

コード実行ディメンションは前日の100.00点から75.00点へと25点下落し、素材制約は95.20点から91.70点へと3.5点低下した。一方、2つのサイドランキングのディメンションには明確な回復が見られ、エンジニアリング判断は89.60点から100.00点へ、タスク表現は75.80点から92.50点へとそれぞれ上昇した。

Smoke評価のサンプリング特性

Smoke評価は1日わずか10問で、各ディメンション2問というきわめて少ないサンプル数である。コード実行ディメンションで1日25点の変動が生じることは、この評価フレームワークにおいて通常の範囲内に収まる。素材制約がわずか3.5点の低下にとどまっていることは、制約遵守に関するモデルの基礎能力に系統的な退化が生じていないことを示している。

エンジニアリング判断とタスク表現の2つのサイドランキングのディメンションが同時に向上したことは、今回抽出された問題においてモデルの判断ロジックと表現の明確さがむしろ改善されていたことを示している。これは、変動が主に問題の難易度の差異に起因するものであり、モデル全体の能力低下ではないという見方をさらに裏付けるものだ。

継続的な注視が必要か

メインランキングにおける15.3点の下落は主にコード実行という単一ディメンションによって引き起こされており、かつ同ディメンションが前日満点・今日75点という結果であることから、2問のうち少なくとも1問の難易度が前日より著しく高かった可能性が極めて高い。誠実性評価はpassを維持しており、異常なシグナルは確認されていない。

現在のデータの下では、Claude Sonnet 4.6の今回の下落は真の性能低下よりも抽選による変動に近いと言える。今後3〜5日間のSmoke データを観察し、コード実行が85点を継続的に下回るようであれば、正式なロングランキングでの再テスト実施を検討することを推奨する。

Smokeでの急落は、モデルの後退ではなく、2問の運によるものである可能性が高い。

データ出典:Winzheng (YZ Index) | Run #205 | 元データを見る