Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7は本日のSmoke評価でメインランキング88.53点となり、前日比8.2点の下落を記録した。この下落幅は現在の毎日10問クイックテストにおいて異常範囲に属する。中核的な損失は材料制約次元から来ており、92.80から74.50へと直接下落し、単日下落幅は18.3点に達した。

抽選による変動か、それとも実質的な劣化か

Smoke評価では毎日材料制約の問題が2問のみであり、サンプル数が極めて少ないため、理論上単日の標準偏差は12〜15点に達し得る。しかし18.3点の下落幅は、すでに過去の95%信頼区間を超えている。前日は2問とも材料の境界を厳格に遵守できていたが、本日は少なくとも1問で明らかな境界越えまたは過剰生成が発生しており、具体的には「与えられた表データのみを使用する」と明確に制限する指示の下で、モデルが依然として外部の常識を導入して補足していた。

エンジニアリング判断次元はむしろ58.40から66.70へと上昇しており、モデルがトレードオフを必要とするシナリオにおいて全体として弱体化していないことを示している。これはさらに、問題が「材料に厳密に従って回答する」という単一の能力に集中しており、汎用推論能力の劣化ではないことを指し示している。

最近の業界動向とタイムラインの一致

過去2週間、AnthropicはClaudeシリーズのAPI安全戦略について小規模な反復を行い、「制限を回避するために使用される可能性のあるコンテンツの生成を回避する」という点を重点的に強化した。この調整は、意図せずモデルの「材料制約」類指示に対する感度を増幅させ、境界判定時に過度に保守的になったり誤判定したりする結果を招いた可能性がある。本日の誠実性評価がpassからwarnに変わったことと合わせると、システムはモデルが少なくとも1問で材料と一致しないが自己完結した回答を出したことを検出し、誠実性フラグをトリガーした。

同種のモデルが類似の毎日クイックテストにおいて、材料制約次元で単日15点を超える変動を示した事例は過去に3回のみであり、いずれもAPI側の戦略更新を伴っていた。Claude Opus 4.7の今回のパフォーマンスは、その3回と高度に類似している。

継続的な注視が必要か

必要である。材料制約はYZ Indexメインランキングにおける2つの監査可能な次元のうちの1つであり、その重みは最終的なランキングに直接影響する。当該モデルが今後3回のSmokeウィンドウ内で材料制約スコアを85点以上に回復できない場合、その長期的な安定性に関する予想を下方修正する必要が大いに生じる。現時点では単日のデータだけではモデル能力の永続的な低下を判定するには不十分だが、「ウォッチリスト」に加えるには十分である。

毎日のクイックテストの意義は、まさにこのような局所的な異常を迅速に捕捉することにあり、週次ランキングや月次ランキングを待ってから問題を発見することではない。

18点の材料制約崩壊が一度発生したことは、すべてのモデルに警鐘を鳴らしている。安全性を追求すればするほど、最も厳格な指示実行が必要なシナリオで失敗しやすくなる。

データ出典:YZ Index | Run #132 | 元データを表示