今週の Smoke 連続 7 日間クイックテストで最も直接的に明らかになったのは、かつて首位に君臨していた GPT-5.5 の実行力平均値がわずか 74.6 にまで落ち込み、最終日のスコアは 63.89 と初日から 23.1 点の急落となったことだ。素材制約とコード実行の両面で弱体化が見られる。
トップモデルが軒並み下落、実行力と grounding が同時に後退
GPT-5.5、GPT-o3、Grok 4 の 3 モデルのトレンドはそれぞれ -23.1、-20.8、-17.2 で、初日はいずれも 84 点以上だったが、最終日には 63~67 点の区間まで落ち込んだ。データによれば、これらの grounding 次元は連続クイックテストにおいて明らかな減衰を示しており、1 日 10 問のうち複雑な素材制約を含む問題のスコア変動が最も大きかった。これは以前の Full 評価で長文脈記憶に依存する特性を示していたのとは対照的であり、Smoke クイックテストが grounding に対する感度を高めていることを示している。
Claude 2 モデルが 30+ 点の逆転を達成、ただし安定性が懸念材料に
Claude Opus 4.7 は初日の 58.1 から 90.21 へと急上昇し、トレンドは +32.1。Claude Sonnet 4.6 はさらに激しく、56.44 から 90.66 へと上昇し、トレンドは +34.2 となった。両モデルとも 4 日目以降は高水準のプラトーに入ったが、変動値はそれぞれ 40.8 と 48.3 に達し、豆包 Pro の 21.2 を大きく上回っている。YZ Index の計算式によれば、Sonnet 4.6 の安定性スコアはすでに約 3.4 点まで低下しており、回答の一貫性が極めて悪く、ある日は高得点、別の日は低得点という状況が繰り返されていることを意味する。
変動の大きいモデルが集中、安定性の低さが信頼性に直結
Claude 以外にも、Gemini 3.1 Pro の変動は 43.7、文心一言 4.5 の変動は 42.9、Qwen3 Max の変動は 36.4 と、いずれも高変動グループに属している。Gemini 3.1 Pro の平均値は 76.5 だが、3 日目に 20 点級の単日急落が発生し、その後緩やかに回復しており、judgment 次元が極めて不安定であることを示している。DeepSeek V4 Pro はトレンド +8.5、変動はわずか 17.9 で、上昇と相対的な安定性を兼ね備えた数少ないモデルの 1 つだ。
誠実性評価が warn/fail から回復することが重要なシグナルに
今週は 11 モデル中 9 モデルで warn または fail が発生し、Grok 4 は一時的に fail に陥った後 pass に戻り、DeepSeek V4 Pro は warn と fail の間で 2 回切り替わった。最終的に 7 日目の末尾では全モデルが pass に戻っており、プラットフォームがハルシネーションと事実の偏差に対する検出を継続的に強化していることを示しているが、同時に一部のモデルが連続クイックテストで「一夜漬け」しやすいという問題点も露呈した。
来週の Full 評価予測:Claude は高水準で圧力を受け、DeepSeek と豆包がさらにシェアを侵食する可能性
今週の Smoke トレンドを踏まえると、Claude の 2 モデルは Full 評価で変動を 25 以下に抑えられなければ、90+ の高スコアを維持できない可能性が高い。GPT-5.5 は grounding 次元で少なくとも 15 点を取り戻す必要があり、そうでなければ豆包 Pro(平均値 86.7、変動 21.2)と DeepSeek V4 Pro(平均値 82.7、変動 17.9)にさらに圧迫されることになる。Qwen3 Max が変動を 25 以内に抑えられれば、今週最大のダークホースとなるだろう。
Smoke クイックテストはすでに警鐘を鳴らしている:スコアは短期的に急上昇できるが、安定性と誠実性こそが長期的な入場券である。
データソース:YZ Index (赢政指数) | Run #152 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接