Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の11モデルを対象とした実測において、Claude Sonnet 4.6の本日のSmokeテストにおけるコード実行スコアが昨日の100.00から50.00へ直接急落し、メインランキング全体も79.44から72.50へ低下した。

1日で50点落差が生じた直接データ

Smokeテストは1日あたり10問のみで、ディメンション(評価軸)ごとに2問ずつ出題される。コード実行ディメンションは昨日満点だったが本日は半減し、一方で素材制約は54.30から100.00へ、エンジニアリング判断は75.50から95.90へ、タスク表現は84.50から100.00へとそれぞれ上昇した。4つのディメンションのうち3つが大幅に上昇し、コード実行のみが-50点の変動を示したことで、メインランキングが正味6.9点低下した。

題目抽選による変動か、真の性能劣化か

Smokeテストの問題は毎日ランダムに抽選されるため、1日のスコアの標準偏差はもともと大きい。Claude Sonnet 4.6の素材制約とタスク表現が同時に満点を獲得していることは、同一評価内で制約・表現系の問題に対してモデルが安定したパフォーマンスを発揮していることを示しており、コード実行ディメンションのみが極端に低いスコアを記録した。これはモデル全体の能力劣化というよりも、題目抽選による局所的なぶれに近いと考えられる。

コード実行ディメンションはわずか2問のみであり、1問のミスだけで50点規模のスコア急落を引き起こす可能性がある。

継続的な監視が必要か

メインランキングの低下は6.9点にとどまり、誠実性評価もpassを維持していることから、現時点のデータではモデルに系統的な劣化が生じたとは判断できない。ただし、コード実行ディメンションが満点からゼロへ直接下落した変動幅は、通常の抽選範囲を超えている。翌日以降も同ディメンションが低水準を維持するようであれば、監視頻度を高める必要がある。

本日の全スコアを総合すると、Claude Sonnet 4.6のSmokeテストにおける結果は明確なディメンション分化を示している。素材制約とタスク表現はピーク値に達した一方、コード実行は極端な谷を記録した。メインランキングの小幅な下落は、複数ディメンションの同時低下ではなく、コード実行という単一ディメンションによって引き起こされたものだ。

このモデルについては、今後2〜3日間の同ディメンションにおけるスコア分布を引き続き観察し、偶発的な変動と真の能力変化を区別する必要がある。


データソース:YZ Index | Run #182 | 元データを見る