Claude Opus 4.7は本日のSmoke評価でメインランキングが直接9点失い、97.75点から88.75点へ下落しました。主因は材料制約次元が95点から75点へ急落したことです。これは小幅な変動ではなく、単日で20点の確固たる損失です。
変動か劣化か:まずはデータが語る
Smoke評価は毎日10問のみで、各次元2問、サンプル数が少ないため分散が本質的に高めです。コード実行次元は本日も満点の100点を獲得しており、モデルが純粋なロジックと実行経路で崩壊していないことを証明しています。エンジニアリング判断はむしろ30点から38.4点へ上昇し、タスク表現は30点のまま変わりません。明らかに低下しているのは材料制約のみです。
材料制約は主に、与えられた材料に対するモデルの忠実度と境界制御を評価します。20点の下落は、本日抽選された2問が長文ドキュメント引用、事実確認、または外挿禁止のシナリオに関わっていた可能性が高いです。モデルはそのうちの1問で過剰な要約や未承認情報の追加を行い、直接的に低スコアとなった可能性があります。
最近の業界動向を踏まえた解釈
Anthropicは過去2週間でClaude 4シリーズのコンテキスト最適化パッチをプッシュしたばかりで、公式は長文ドキュメント処理速度の向上を謳っています。速度向上は時に厳格な境界制御の犠牲を伴います。類似の状況はClaude 3 Opus時代にも発生しており、コンテキスト加速アップデート後、groundingスコアが3日連続で低下し、その後ファインチューニングで回復しました。
同時に、OpenAI o3-miniとGemini 2.5 Proは最近、同種の高速評価で材料制約スコアが88〜92の範囲で安定しています。Claude Opus 4.7がメインランキングの第一線を維持したいのであれば、grounding次元で再び優位性を確立する必要があります。
継続的に注目する価値があるか
単日9点の下落はSmoke履歴記録の上位15%に入りますが、即座に警報を鳴らすレベルではありません。3日間連続で観察することをお勧めします:材料制約が2日連続で80点を下回り、安定性次元(現在31.7点、変動はすでに大きい)と組み合わせて総合的に判断して初めて、モデルにシステミックな劣化が生じていると疑う根拠が得られます。
現時点で最も合理的な説明は、依然として問題の抽選によるランダム誤差です。Claude Opus 4.7のコード実行とエンジニアリング判断は依然として堅実であり、全体的な能力基盤は揺らいでいません。
1回のSmokeで9点下落は運の問題かもしれない。3回連続で材料制約が崩れて初めて、それはシグナルとなる。
データ出典:YZ Index | Run #119 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接