Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Claude Opus 4.7は本日のSmoke評価で素材制約が一気に17.6点を失い、98.3点から80.7点へ下落、メインランキングも65.19点から63.82点に滑り落ちた。同じモデルでコード実行は38.1点から50.0点に上昇し、タスク表現も30.0点から50.0点へ伸びた。この氷と炎の二極化したパフォーマンスを前に、問わざるを得ない:これは抽選運なのか、それともモデル自体に問題が生じたのか?

問題変動か真の退化か?

Smoke評価は1日に10問のみを実施し、1次元あたり2問とサンプル数が極めて少ないため、単日の標準偏差はもともと大きくなりやすい。素材制約次元は主にモデルが与えられた素材をどれほど厳格に遵守するかを評価するもので、もし出題が原文の厳密な引用を要求したり外部知識の使用を拒否する場面に当たった場合、モデルが一言余計な説明を加えたり勝手に補足したりすると、大きく減点される可能性がある。本日の80.7点と昨日の98.3点との巨大な落差は、高難度の制約問題を引いた結果である可能性が高く、モデルが突然「指示の遵守方法を忘れた」わけではないだろう。

しかし、すべてを運に帰することもできない。コード実行次元が同期に11.9点上昇していることは、モデルが構造化出力と論理連鎖においてはむしろ安定していることを示している。2種類の能力が同時に反対方向に変動するのは、Anthropicが最近Opus 4.7に対して小規模な選好アラインメントや安全性強化を行い、モデルが「素材を厳格に遵守する」ことと「能動的に補完する」ことの間に新たなトレードオフを生じた、と解釈するのが合理的である。

業界動向による裏付け

今月Anthropicはちょうど Claude シリーズに対して安全性の微調整を実施したばかりで、「安全でない、または越境的なリクエストを拒否する」能力を重点的に強化した。この種の調整はしばしばモデルを素材制約次元でより慎重にし、境界が曖昧な指示に対してより保守的な回答を選択させ、結果としてスコアを低下させる。同時に、Anthropicはコード関連能力の最適化も継続しており、4.7バージョンのコード実行ベースラインは前世代よりも元から高く、本日の50.0点はその実力により近い。

エンジニアリング判断とタスク表現という2つのサイドランキング次元も同期して反対方向に動いており、今回の調整の方向性をさらに裏付けている:モデルは「素直さ」と「賢さ」の間で再キャリブレーションされたのだ。

注視する必要があるか?

単日17.6点の下落幅はクイック評価では異常だが、モデルの退化を示す確かな証拠とまでは言えない。同一次元の中央値変化を3〜5日連続で観察することを推奨する。もし素材制約が継続的に85点を下回り、他の次元も同期して下落するようであれば、真の能力退化と判断する必要がある。現時点では、Anthropicの安全性反復の副作用である可能性が高く、コントロール可能な範囲内である。

素材制約に依存するアプリケーションシナリオの開発者は、プロンプト内に「与えられた素材のみを使用する」というより明確な指示を追加し、モデルの自主的な発揮余地を減らすべきである。

1回のクイック評価における暴落は、しばしばモデルが崩壊したのではなく、訓練目標が密かに方向を変えたことを露呈している。

データソース:YZ Index | Run #127 | 元データを表示