Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適