文心一言4.5 Smokeメイン評価ランキングが1日で22.2点急落、コード実行スコアは半減して50点に

YZ Index 2026年6月における11モデルの実測評価で、文心一言4.5 Smokeのメインランキングスコアが93.25点から71.02点へと、1日で22.2点下落した。

コアデータの分析

コード実行ディメンションは94.10点から50.00点へと44.1点下落。資料制約は92.20点から96.70点へと4.5点上昇。エンジニアリング判断は79.20点から58.30点へと20.9点下落。タスク表現は94.50点から86.30点へと8.2点下落。誠実性評価はpassを維持した。

変動要因の判定

Smoke評価は1日あたりわずか10問(ディメンションあたり2問)であり、1日単位の抽選による変動は通常範囲内とされる。ただし、コード実行ディメンションで44.1点という大幅な下落が発生しており、資料制約のわずかな上昇をはるかに上回っていることから、今回の異常はコード関連問題に集中していると考えられる。エンジニアリング判断も同時に20.9点下落しており、構造化出力や論理推論系タスクにおけるモデルのパフォーマンス不安定を示唆している。

問題の抽選変動とモデルの真の劣化は区別する必要がある。1日分のデータのみでモデルの能力が永続的に低下したと断定することはできないが、44.1点というコード実行の下落幅は通常の抽選変動範囲を超えており、今後の継続的な観察が求められる。

注目すべきか否か

文心一言4.5のメインランキングスコア71.02点は一部の競合モデルを依然として上回っているが、コード実行ディメンションの50.00点はすでに低水準にある。今後3日以内にこのディメンションが80点以上に回復しない場合は、コード生成タスクにおいてモデルに系統的な問題が存在するか否かを検討する必要がある。現時点では1日分のデータのみであり、抽選変動である可能性が高いと判断されるが、引き続き継続的な追跡観察を推奨する。

資料制約ディメンションは96.70点の高水準を維持しており、引用や事実制約の面ではモデルの劣化は見られない。メインランキング全体の下落は主にコード実行とエンジニアリング判断の2つのディメンションによって引き起こされている。

コード実行が1日で22点半減——文心一言4.5は3日間の連続データでその実力を証明する必要がある。

データ出典:YZ Index | Run #188 | 生データを見る