Claude Opus 4.7の本日のSmoke評価では、わずか10問で素材制約次元が15ポイント急落し、74.50から59.50まで落ち込み、メインランキング全体も6.8ポイント下落して81.78となった。コード実行は依然として満点100点を維持し、エンジニアリング判断66.70、タスク表現30.00の2項目はゼロ変動、信頼性評価はwarnを維持している。
抽選による揺らぎと真の劣化の境界
Smoke評価は毎日各次元2問のみで、サンプル数が極めて少ないため、単日15ポイント規模の変動自体は珍しくない。重要なのは、素材制約のこのラウンドでの失点が特定の制約タイプに集中しているかどうかである。過去のデータでは、本モデルは複数の素材境界を厳格に遵守し、暗黙的な越境要求を拒否する必要のある問題でより失点しやすい傾向がある。本日の2問が偶然このような高難度の制約問題に該当した場合、15ポイントの下落は抽選で完全に説明可能である。
しかし、失点分布が均一で、誤りパターンが昨日と一致する場合、アライメント訓練後のモデルの実際の能力ドリフトを警戒する必要がある。現時点では1日分のデータしかなく、系統的劣化と判定するには不十分である。
最近の業界動向との交差検証
Anthropicは過去2週間でClaude 4シリーズ向けのアライメント微調整を完了したばかりで、「最小必要情報」原則の強化に重点を置いた。この種の調整は、素材制約問題においてモデルをより保守的にする傾向があり、過剰拒否や部分的な回答がシステムにより不完全と判定されることがある。Opus 4.7のバージョン番号は、最新の微調整重みが搭載されている可能性を示しており、本日のパフォーマンスはこの調整のタイムラインと高度に一致している。
同時に、競合のGrokとGeminiは最近、同種の制約タスクで得点がわずかに上昇しており、Claudeの今回の下落の相対性をさらに際立たせている。
重点的に注視すべきか
単日データではアラートを発するには不十分だが、素材制約が連続2日65点を下回った場合、3日間のローリング観察ウィンドウを開始すべきである。3日目も低位を維持し、誤りが同じ制約サブカテゴリに集中している場合、微調整後の能力シフトと初歩的に判定でき、ランダムな揺らぎではないと考えられる。
現時点での最も妥当な判断は、通常の追跡を維持し、モデル劣化警告を直ちに発する必要はないというものである。
素材制約での15ポイント急落は、10問の抽選下では運の作用である可能性が高いが、連続して発生する場合、Anthropicのあの「最小必要」微調整が制約境界を過度に敏感に調整したのではないかと疑う価値がある。
データ出典:YZ Index | Run #134 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接