レビュー Claude Sonnet 4.6 のコード実行が25点急落:モデルの退化か、評価の錯覚か? 本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開 Claude Sonnet 4.6 代码执行 Smoke评测 模型退化 6時間前 55