YZ Index 2026年6月の11モデルを対象とした実測において、Claude Sonnet 4.6の本日のSmokeテストにおけるコード実行スコアが昨日の100.00から50.00へ直接急落し、メインランキング全体も79.44から72.50へ低下した。
1日で50点落差が生じた直接データ
Smokeテストは1日あたり10問のみで、ディメンション(評価軸)ごとに2問ずつ出題される。コード実行ディメンションは昨日満点だったが本日は半減し、一方で素材制約は54.30から100.00へ、エンジニアリング判断は75.50から95.90へ、タスク表現は84.50から100.00へとそれぞれ上昇した。4つのディメンションのうち3つが大幅に上昇し、コード実行のみが-50点の変動を示したことで、メインランキングが正味6.9点低下した。
題目抽選による変動か、真の性能劣化か
Smokeテストの問題は毎日ランダムに抽選されるため、1日のスコアの標準偏差はもともと大きい。Claude Sonnet 4.6の素材制約とタスク表現が同時に満点を獲得していることは、同一評価内で制約・表現系の問題に対してモデルが安定したパフォーマンスを発揮していることを示しており、コード実行ディメンションのみが極端に低いスコアを記録した。これはモデル全体の能力劣化というよりも、題目抽選による局所的なぶれに近いと考えられる。
コード実行ディメンションはわずか2問のみであり、1問のミスだけで50点規模のスコア急落を引き起こす可能性がある。
継続的な監視が必要か
メインランキングの低下は6.9点にとどまり、誠実性評価もpassを維持していることから、現時点のデータではモデルに系統的な劣化が生じたとは判断できない。ただし、コード実行ディメンションが満点からゼロへ直接下落した変動幅は、通常の抽選範囲を超えている。翌日以降も同ディメンションが低水準を維持するようであれば、監視頻度を高める必要がある。
本日の全スコアを総合すると、Claude Sonnet 4.6のSmokeテストにおける結果は明確なディメンション分化を示している。素材制約とタスク表現はピーク値に達した一方、コード実行は極端な谷を記録した。メインランキングの小幅な下落は、複数ディメンションの同時低下ではなく、コード実行という単一ディメンションによって引き起こされたものだ。
このモデルについては、今後2〜3日間の同ディメンションにおけるスコア分布を引き続き観察し、偶発的な変動と真の能力変化を区別する必要がある。
データソース:YZ Index | Run #182 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接