Claude Sonnet 4.6が本日のSmoke評価で顕著な異常を示し、材料制約の次元が74.50から59.50に直接下落、単日で15点の下落を記録、メインランキング全体は6.8ポイント下落して81.78となりました。この下落幅は、毎日10問の快測における通常の抽選変動範囲をすでに超えています。
変動と劣化をどう区別するか
Smoke評価は1日あたり各次元2問のみで、サンプル数が少なく、1問の失敗で10点以上の変動が生じ得ます。しかし材料制約は2日連続で体系的な下落が見られ、誠実性評価もpassからwarnに転じており、外部材料を引用する際の正確性と境界制御に実質的な問題が発生していることを示しています。単なる運の要素ではありません。
最近の業界動向による裏付け
過去3週間、AnthropicはClaude 4シリーズに対して少なくとも2回の重み更新を行い、ロングコンテキストとツール呼び出しの最適化に重点を置きました。一部の開発者からは、Sonnet 4.6が引用付きの技術Q&Aを処理する際に「過剰な自信による幻覚」の比率が上昇しているとのフィードバックがあり、今回の材料制約スコア下落と高度に一致しています。
重点的に注目すべきか
注目すべきです。材料制約はYZ Indexメインランキングの2大コア次元の一つであり、RAGや企業ナレッジベースなどのシナリオでのモデルの可用性に直接影響します。-15点級の下落が連続して発生し、誠実性評価も黄信号が点灯したことは、当モデルの現バージョンがすでに観察期に入ったことを示しています。ユーザーには重要な本番タスクでの大規模デプロイを一時保留し、次回の完全な評価結果を待つことをお勧めします。
15点の暴落はノイズではなく、Claude 4.6の材料能力に対する本物の警報です。
データソース:YZ Index | Run #134 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接