Claude Sonnet 4.6は本日のSmoke簡易テストで明らかな異常を示し、メインランキング全体で12.3点下落した。中核的な原因は、素材制約次元が96.30点から69.00点まで一気に下落し、その下落幅は27.3点に達した点にある。コード実行次元は100点満点を維持し、エンジニアリング判断は8.4点小幅回復して38.40点となり、タスク表現は30点で変わらなかった。
素材制約次元はなぜ激しく変動したのか
Smoke評価は毎日10問のみで、素材制約次元はわずか2問しか抽出されない。1問のミスで30点以上の変動が生じる可能性があるため、これだけでモデルの能力低下と断定することはできない。しかし27.3点という下落幅は通常の抽選範囲を超えており、3日連続のデータを追跡する価値がある。
素材制約は主に、与えられた文書や指令の境界に対するモデルの遵守度を評価する。昨日の高得点はモデルが厳格に素材に基づいて回答できることを示しており、本日の低得点は2問の中に複雑な制約のネストや反事実的な素材が含まれており、モデルが過度な推論を行ったり、重要な制限条件を見落としたりした可能性がある。
最近の業界動向とモデル更新の関連性
Anthropicは過去2週間にClaudeシリーズに対して小規模なアラインメント微調整を実施し、「有用性」と「簡潔な回答」の強化に重点を置いた。一部の開発者からは、新バージョンがオープンエンドな問答において外部知識を補足する傾向が強まったとのフィードバックが寄せられており、これは素材制約が要求する「与えられた素材に厳密に限定する」という点と潜在的な衝突がある。
今回の微調整による重み調整が、モデルの指令境界に対する感度に影響を与えたとすれば、Smokeのような高制約シナリオで問題が露呈する可能性がある。コード実行次元が満点を維持していることは、基礎的な推論能力に影響がないことを示しており、問題は「いつ素材を厳密に引用し、いつ拡張可能か」という境界判断に集中している。
継続的な注視が必要か
今回の下落は注視に値するシグナルである。素材制約はメインランキングにおける2つの監査可能な次元の1つであり、その安定性は企業のRAGや契約審査など高制約シナリオでのモデルの実用性に直接影響する。今後3日間にわたってこの次元が80点を下回り続けるなら、抽選ノイズではなくシステム的退行と判定できる。
現時点で誠実性評価は依然としてpassであり、モデルに回答拒否や事実捏造といった深刻な問題は発生しておらず、単に制約遵守度が低下しているに過ぎないことを示している。次回の完全評価では、単日変動の影響を抑えるため、素材制約問題の出題数を増やすことを推奨する。
エンジニアリング判断の小幅な上昇もまた、モデルが「能動的に情報を補足する」傾向にあることを裏付けている。これは創造的タスクでは強みとなりうるが、厳格に素材主導のタスクではむしろ減点要因となる。
モデルが「従順さ」と「賢さ」の間で揺れ始めると、最初に警報を発するのは素材制約のスコアであることが多い。
データ出典:YZ Index | Run #119 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接