YZ Index Smokeウィークリーレポート：文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

2026年6月28日 14 約5分 Winzheng Index

文心一言 4.5 Claude Sonnet 4.6 Smoke测试稳定性分析诚信评级

YZ Index（赢政指数）の2026年6月23日から28日にかけて11モデルを対象としたSmoke実測において、文心一言4.5は初日の98.74点から最終日の61.52点へと下落し、トレンドは-37.2、平均値はわずか82.1、変動幅は37.2となり、下落幅が最大のモデルとなった。

大多数のモデルが最終日に揃って下落

Claude Sonnet 4.6は初日94.87点、最終日70.52点、トレンド-24.4、平均87.5、変動幅28.4。Claude Opus 4.7は初日100点、最終日71.47点、トレンド-28.5、平均89.8、変動幅28.5。Gemini 2.5 Proは96.18点から81.41点に下落し、トレンド-14.8、平均90.9、変動幅22.6。Gemini 3.1 Proは100点から91.21点に下落し、トレンド-8.8、平均90.5、変動幅30.7。GPT-5.5は96.18点から84.18点に下落し、トレンド-12、平均92.8、変動幅14.7。GPT-o3は96.81点から82.53点に下落し、トレンド-14.3、平均91.6、変動幅17。Grok 4は100点から82.97点に下落し、トレンド-17、平均93.3、変動幅18.5。DeepSeek V4 Proは99.37点から87.35点に下落し、トレンド-12、平均94.2、変動幅17.8。Qwen3 Maxは74点から69.94点に下落し、トレンド-4.1、平均81、変動幅28.1。唯一、豆包Proのみが98.07点から98.61点へと微上昇し、トレンド0.5、平均95.8、変動幅16.6となった。

高変動モデルは重点的に注視が必要

文心一言4.5の変動幅37.2、Gemini 3.1 Proの変動幅30.7、Claude Opus 4.7の変動幅28.5、Claude Sonnet 4.6の変動幅28.4、Qwen3 Maxの変動幅28.1は、いずれも28点を超えている。これらのモデルは7日間でスコアの標準偏差が大きく、同種の問題に対して複数回回答した結果に明らかな差異があることを意味する。Smokeは1日あたりわずか10問であり、サンプル数は少ないものの、7日間の連続データによって最終日のスコアが全体的に平均値を下回る傾向が示されており、連続テストにおけるモデルの一貫性が低下していることが確認された。

誠実性評価の変化がシグナルを発信

文心一言4.5の誠実性評価はwarnからpassへ、Qwen3 Maxはfailからwarnへさらにpassへと移行した。両モデルの誠実性評価はいずれも正向または安定した変化を示したが、スコアのトレンドは依然としてマイナスである。誠実性評価はあくまでも参入基準にすぎず、スコアに直接加算されるものではない。評価が改善した後もスコアが大幅に下落したことは、モデルの能力変動が誠実性の次元とは独立していることを示している。

来週のFull評価における見通し

7日間連続のSmokeトレンドが示すように、変動幅が28点を超えたモデルはFull評価においても高い確率でスコアの起伏が続くと予想される。豆包Proは平均95.8かつトレンド0.5であり、高水準を維持できる唯一のモデルとなる可能性がある。Claudeシリーズ、Geminiシリーズ、GPTシリーズの平均値はいずれも87.5〜93.3の範囲にあるが、最終日のスコアが全体的なパフォーマンスを引き下げている。業界の背景として、モデルのイテレーションには短期的な安定性の低下が伴うのが通例であり、現在のデータはこの推論を裏付けている。

7日間連続のSmokeデータは、AIモデルの安定性が補助的指標から決定的な制約要因へと変化していることを示している。

来週のFull評価で同様の問題分布が継続した場合、高変動モデルの最終ランキングには顕著な変動が生じる可能性があり、豆包Proは低変動という優位性を活かしてトップを維持する機会を持つ。

データ出典：YZ Index（赢政指数） | Run #201 | 元データを見る

YZ Index Smokeウィークリーレポート：文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

大多数のモデルが最終日に揃って下落

高変動モデルは重点的に注視が必要

誠実性評価の変化がシグナルを発信

来週のFull評価における見通し

関連記事