今週のSmoke快速テストで最も顕著なシグナルはGPT-5.5から発信された:7日間で初日の60.58から最終日の90.3まで一気に上昇し、純増29.7点、平均値は73.6ながら明確な上昇チャネルを示した。これは同時期に多くのモデルが集団的に下落したのとは対照的である。
下落陣営:GPT-o3 と DeepSeek が下落をリード
GPT-o3 は初日の94.51 から最終日の58.08まで下落し、トレンド-36.4、平均値はわずか73.8で、下落幅は全モデル中最大となった。DeepSeek V4 Pro も同様に大幅下落し、初日93.03 から最終日74、トレンド-19、平均値81.1。さらに注目すべきは誠実性評価である:最初の5日間で複数回 warn が出現し、6日目には直接 fail となり7日目まで継続した。これは偶発的な変動ではなく、連続快速テストにおいてモデルに明らかな退化シグナルが出現したことを示している。
豆包 Pro も同様に警戒すべきだ。初日97.75 から最終日89.85、トレンド-7.9、平均値85.4だが、変動値は43.7に達し、回答の一貫性が明らかに低下していることを示している。連続7日間で誠実性評価が pass だったのは6日、warn が1日と、辛うじて閾値を維持しているように見えるが、実際にはコア能力が緩やかに失われている。
上昇陣営:4モデルが逆風を突破
GPT-5.5 以外にも、文心一言4.5 は74 から88.48 へ(+14.5)、Gemini 3.1 Pro は75 から88.7 へ(+13.7)、Qwen3 Max は77.84 から84.2 へ(+6.4)上昇した。この4モデルはいずれも平均値が低めの状況下で正のトレンドを実現しており、基盤能力が依然として反復ウィンドウ期にあることを示している。
その中でも GPT-5.5 と Gemini 3.1 Pro の上昇曲線が最も急で、最終日のスコアは多くの老舗モデルに迫るか上回っている。これはユーザーへの示唆となる:現在のSmoke快速テストは新バージョンの反復に敏感であり、短期間で「後発が先発を逆転する」激しい順位変動が起こる可能性がある。
変動率が安定性の懸念を露呈
安定性次元(max(0,100-stddev×2))はモデルが同種の問題に複数回回答した際のスコアの分散度合いを直接反映している。Gemini 2.5 Pro の変動値61.1、文心一言4.5 の変動値55、豆包 Pro の変動値43.7は、いずれも GPT-5.5 の30.9を大きく上回っている。これは前三者が類似問題に直面した際、出力品質の起伏が極めて大きく、ユーザーの実際の体験が非常に不安定になることを意味する。
高い変動性は誠実性評価の反復を伴うことが多い。Gemini 2.5 Pro は3日目に即 fail となり、5日目にようやく回復した。文心一言4.5 は7日間で3回 fail、2回 warn であり、材料制約とコード実行という2つのメインボード次元の両方に明らかな弱点があることを示している。
来週 Full 評価の予測
現在のトレンドに基づくと、GPT-5.5 と Gemini 3.1 Pro は来週の Full 評価で中位の地位をさらに侵食する可能性があり、一方 GPT-o3 と DeepSeek V4 Pro は失血を続けるリスクに直面している。特に DeepSeek の連続 fail という誠実性記録は、より厳格な材料制約の再審査をトリガーする可能性があり、メインボードの順位に直接影響を及ぼす可能性がある。
業界背景としては、2026年第2四半期は複数ベンダーのモデルが集中的に反復するウィンドウであり、Smoke快速テストは既に GPT-5.5 と Qwen3 Max の上昇勢いを先取りして捉えている。Full 評価では、実行と grounding という2つの監査可能な次元が現在のトレンド差をさらに拡大することが予測される。
7日間のSmokeデータは既に答えを示している:すべてのモデルが進歩しているわけではなく、スコアを58点まで下落させたモデルこそ、ユーザーが本当に警戒すべきシグナルである。
データソース:YZ Index | Run #129 | 原始データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接