今週のSmokeクイックテスト連続7日間のデータが明らかにしたところによると、DeepSeek V4 Proは初日の97.08から最終日には66.88まで直接下落し、全体トレンドは-30.2、平均値はわずか79.8、変動幅は57.8に達した。この下落幅は全モデル中でも上位に位置し、前期の高位パフォーマンスとは対照的である。
下落モデル:DeepSeekとGemini 2.5 Proに問題が集中
DeepSeek V4 Proの下落は単独事例ではない。Gemini 2.5 Proも96.63から66.2へと下落し、トレンド-30.4、平均値75、変動幅58.3を記録した。両モデルともに4日目と5日目に単日の底を記録し、誠実性評価がpassから急速にwarnやfailへと転じたことと合わせて、回答の一貫性が著しく不足していることを示している。GPT-o3も89.44から71.06に下がり、トレンド-18.4、平均値75.5、変動幅68.7で、同様に誠実性評価が複数回warnとなった。
これらの下落は、モデルが連続クイックテストで露呈した安定性の欠陥と直接関連している。YZ Indexの安定性指標は正答率そのものではなく、スコアの標準偏差を測定している。DeepSeek V4 ProとGemini 2.5 Proの高い変動値は、同種の問題に複数回回答した際にスコアの起伏が顕著で、高水準の出力を維持しにくいことを意味する。
上昇モデル:GPT-5.5とClaude Sonnet 4.6が着実に反発
下落と対照的なのが、GPT-5.5とClaude Sonnet 4.6の力強いパフォーマンスである。GPT-5.5は87.41から98.88まで上昇し、トレンド+11.5、平均値81.5、変動幅69。Claude Sonnet 4.6は90.56から98.97へと上昇し、トレンド+8.4、平均値83.8、変動幅62.8を記録した。豆包Proとgrok 4もそれぞれ+2.3と+2.9の穏やかな成長を達成し、最終日のスコアはいずれも99点に迫った。
これら上昇モデルは誠実性評価にwarnが出現したものの、全体的な回復速度は速い。Claude Sonnet 4.6とGPT-5.5は直近3日間の評価がほぼpassで安定し、クイックテスト問題への適応力向上を示している。文心一言4.5は61.25から84.39へ大幅に飛躍し、トレンド+23.1を記録したが、平均値はわずか69で、基礎はまだ薄弱である。
誠実性評価の変動が最大のシグナルに
今週最も注目すべきは単なるスコアではなく、誠実性評価の変化である。DeepSeek V4 Pro、Gemini 2.5 Pro、grok 4、GPT-o3はいずれもpass-warn-failの繰り返しの切り替えが発生した。Gemini 3.1 Proはトレンドこそ横ばいだったものの、3日目に直接fail、7日目にwarnへと転じた。誠実性評価は参入基準として、その頻繁な変動はモデルの信頼性評価に直接影響を与える。
高変動モデルの中で、Claude Opus 4.7とGPT-5.5の安定性スコアはそれぞれ69.9と69に達しており、回答の一貫性が比較的低いことを示している。業界背景と合わせて見ると、現在のクイックテストサンプルは小規模であるものの、連続7日間はモデルが高負荷の連続質問下で示す実態を明らかにするには十分である。
来週Full評価の予測
今週のトレンドに基づくと、来週のFull評価ではDeepSeek V4 ProとGemini 2.5 Proが引き続き圧力を受ける可能性が高く、一貫性の問題を解決できなければ、コアの_overall_displayスコアは引き続き下落するだろう。GPT-5.5とClaude Sonnet 4.6は、材料制約とコード実行の次元でさらに優位性を固めることが期待される。
連続クイックテストの変動は、Full評価のために既に分水嶺を描き出している。
モデル間の格差は引き続き拡大し、誠実性評価が安定して上昇するものはより多くの信頼を獲得する一方、繰り返し下落するものは次の段階で実質的な改善を示す必要があるだろう。
データソース:YZ Index(赢政指数) | Run #139 | 原データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接