YZ Index 2026年6月における11モデルの実測において、文心一言4.5は本日のSmokeテストメインランキングスコアが81.69点から71.33点へ下落し、1日で10.4点の低下となった。
次元分解:2つのメインランキング指標が同時に低下
コード実行次元は66.70点から50.00点へと16.7点低下し、素材制約は100.00点から97.40点へと2.6点低下した。この2つのメインランキング次元の合計が、全体的なメインランキングの後退を招いた。エンジニアリング判断は44.70点から72.20点へと27.5点上昇し、タスク表現は90.00点から46.30点へと43.7点低下した。
変動要因の分析
Smokeテストは1日わずか10問で、各次元2問のみのため、1日の抽選結果がスコアに与える影響は大きい。コード実行とタスク表現が同時に大幅に落ち込んだことは、モデル能力の系統的な劣化ではなく、問題の抽選によるランダム変動である可能性が高い。素材制約が依然として97.40点という高水準を維持していることも、この判断を裏付けている。
エンジニアリング判断が明確に回復し、誠実性評価がwarnからpassに転じたことは、サブランキング次元における一部のモデルの出力安定性とコンプライアンスが同時に悪化したわけではないことを示している。真の劣化であれば、通常は複数の次元が同時に低下するものであり、このように一方が上がれば一方が下がるという状況は生じにくい。
継続的な注視が必要か
1日10問の簡易テストが本質的に持つ変動特性から、1回の10.4点の下落それ自体は、モデル能力が崖から転落した証拠にはならない。今後3〜5営業日のSmokeデータにおいて、コード実行とタスク表現が継続して60点を下回るかどうかを観察することを推奨する。複数日にわたって低水準が続く場合に限り、正式なテストデータと合わせて真の劣化が存在するかどうかを判断すべきである。
現時点では、文心一言4.5は依然として通常の変動範囲内にあり、長期的な能力見通しを直ちに引き下げる必要はない。
1回の抽選変動はモデルの劣化を意味しない。3日連続の低水準こそが、真のシグナルである。
データソース:YZ Index | Run #184 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接