Claude Sonnet 4.6は本日のSmoke評価で明確な分化を示した:マテリアル制約次元は81.00点から58.40点へ直接下落し、下げ幅は22.6点に達した。一方コード実行次元は50点から一気に100点まで引き上げられ、最終的にメインランキング全体を17.3点押し上げ81.28点とした。
変動の要因:くじ引きか退化か
Smoke評価は1日10問のみ、各次元2問という極めて小さなサンプル量であり、単日の標準偏差は自然と大きくなる。マテリアル制約のこの下げ幅は、本日抽出された問題が事実確認と引用の境界においてより厳格であったことに起因する可能性が高い。コード実行の急上昇も同様に問題の難易度分布の変化を示すものであり、モデルが突然「開眼」したわけではない。3日連続でマテリアル制約が60点以下を維持するようであれば、初めてAnthropicの最近の内部反復が長文コンテキストの事実整合性に悪影響を与えた可能性を疑う理由が生まれる。
最近の業界動向との対照
過去2週間、AnthropicはClaude 4シリーズの新バージョンを公開していないが、信頼できる情報によれば、内部では安全性アラインメントの強化トレーニングが進行中である。この種のトレーニングは、しばしば一部のオープンエンドな素材引用能力を犠牲にすることで、より低いハルシネーション率を獲得する。本日のタスク表現(サイドランキング、AI補助評価)は50点から30点に下落しており、マテリアル制約と同方向に下落していることは、モデルが出力境界の制御においてより保守的になっていることを裏付けている。
メインランキング63.95→81.28という数字は、真のリスクを覆い隠している。
エンジニアリング判断(サイドランキング、AI補助評価)は50点で変化なく、モデルのエンジニアリングシーンにおける意思決定ロジックが明確な擾乱を受けていないことを示している。誠実性評価は依然pass であり、不正やデータ汚染の可能性は排除されている。
重点的に注目すべきか
単日のマテリアル制約22.6点の下げ幅は、Smoke評価の歴史的変動範囲内では依然許容範囲内である。今後72時間のデータを継続観察することを推奨する:今後2日間でマテリアル制約が70点以上に回復すれば純粋なくじ引きノイズと判定可能、もし65点を下回り続けるなら、週次レポートでそのメインランキングでの重み付けを下げる必要がある。現段階では、Claude Sonnet 4.6の利用戦略について大幅な調整を行う必要はない。
モデルの能力は決して直線ではなく、ノイズを伴うランダムウォークである。単日の急落を結論ではなく警報として扱うことが、正しい対処法である。
データソース:YZ Index(赢政指数) | Run #128 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接