Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価において、素材制約という次元で96.50から74.50へと、1日で22ポイントの下落を記録した。

データ分析:メインランキングの微減が局所的な崩壊を覆い隠す

メインランキングのスコアは90.56から88.53へ滑り落ちただけで、2ポイントの下落は一見穏やかに見える。しかし2つのコア次元を分解すると、激しい分化が見える:コード実行は85.70から満点100へと跳ね上がる一方、素材制約は断崖式に下落した。エンジニアリング判断は8.3ポイント小幅上昇、タスク表現は30ポイントで変わらず。誠実性評価は依然としてpass。

Smoke評価は毎日わずか10問、各次元2問のみで、サンプルサイズは極めて小さい。1日で22ポイントの変動自体は決して珍しくない。問題は、その下落幅が正常な抽選範囲を超えているかどうかにある。

変動か退化か:2つの解釈の確率判断

第1の可能性は、出題抽選の偏りである。素材制約の問題で、原文の厳密な引用を必要とし過剰生成を拒否するシナリオが連続して出題された場合、モデルがそのうち1問で幻覚や過剰な装飾を生じれば、その次元のスコアは直接引き下げられる。過去複数期のデータが示す通り、Claudeは素材制約で通常90+の安定したスコアを記録しており、今回の74.5は歴史的な低点に近い。

第2の可能性は、真の能力変化である。Anthropicは最近、Claude 4シリーズに対して複数回の安全性とアライメントの微調整を行い、「不合理な要求の拒否」と「過信の回避」を重点的に強化している。このような調整は、正確な引用と厳密な境界判断を必要とするタスクにおいて、モデルを保守的または回避的にし、素材制約のスコア低下を招くことがある。

直近2週間の業界動向と合わせて見ると、第2の解釈の比重がより高い。Claude 4.6バージョンのリリース後、ユーザーからは長文コンテキスト引用タスクで時折「過度に慎重」な現象が見られるとフィードバックされており、今回の素材制約の崩壊方向と一致している。

注視する必要があるか

現時点ではまだ1日単発のシグナルであり、モデルがシステム的に退化したと判定するには不十分である。しかし今後3営業日にわたり素材制約が85ポイントを下回り続ける場合は、継続的な追跡を開始する必要がある。コード実行が満点に到達したことは、モデルの基盤となる推論能力が損なわれていないことを示しており、問題は「素材使用の規律」という特定の制約に集中している。

Claudeを用いて調査レポート、法律文書、技術文書を生成しているチームにとって、このシグナルは記録する価値がある。

一度の22ポイントの素材制約の急落は、単なる抽選ノイズかもしれない。だが連続して発生するなら、アライメントの代償が真に現れたものかもしれない。

データ出典:YZ Index | Run #132 | 元データを見る