今週のSmoke簡易テストでは、7日連続で10問のデータを取得し、両極分化が明確に浮き彫りになった。文心一言4.5は+53.4のトレンドで32.63から86.05へと急騰し、最大のダークホースとなった。一方、GPT-o3は-7.8の下落幅で91.81から84.03へ滑落し、主要モデル中で下落幅トップとなった。
上昇陣営:3モデルが逆風突破
Claude Sonnet 4.6と豆包Proが並んで第2位となり、いずれも+23.9のトレンドを記録、最終日スコアは同じく86.05だった。Sonnetの平均値は84.5、変動幅は36.1で、連続テストにおいてロジックチェーンの出力が徐々に安定していることを示している。豆包Proの平均値は81.6、変動幅は31.3で、中国語シーンにおける実行次元で急速にキャッチアップしていることを示している。
文心一言4.5の爆発的な伸びが最も注目に値する。初日はわずか32.63だったが、最終日にはトップモデルと肩を並べた。平均値は57.2ながら、変動幅は57と極めて高い。これは単日の出来栄えが極端に不均一であり、特定の問題タイプにおいて「全問正解または全問不正解」という断崖式のパフォーマンスが発生している可能性が高いことを示している。
下落陣営:GPT-o3とGrokの問題が最も深刻
GPT-o3の平均値はわずか80.7、変動幅29.2、トレンド-7.8で、全モデル中で下落幅が最大だった。初日の91.81というリードは4日目以降も流出が続き、素材制約次元におけるシステム的な緩みが示唆される。Grok 4の平均値は61.5まで低下し、変動幅79.2は全体最高、誠実度評価では連続2日のfailまで出現し、回答の一貫性が深刻に崩壊していることを示している。
Claude Opus 4.7とGemini 3.1 Proは依然として高位を維持しているものの、トレンドはそれぞれ-3.4と-4.3で、平均値88.8と83.6の差は縮小しつつある。Qwen3 Maxのパフォーマンスは比較的安定しており、変動幅13.9で最低だが、トレンドは依然-1.3で、初日の優位性を維持できなかった。
誠実度評価がコアリスクシグナルに
7日間のうち6モデルでfailまたはwarnの記録が出現した。Grok 4は連続2日failとなり、Gemini 3.1 ProとDeepSeek V4 Proはそれぞれ1回ずつfail、GPT-5.5は後期に3日連続でwarnを記録した。これらの変化は偶然ではなく、連続的な簡易テストに直面した際、モデルのgrounding能力に明らかな減衰が生じていることを反映している。
特に警戒すべきは、一部のモデルでは誠実度評価が回復した後もスコアが同期して回復していない点である。これはwarn/failが単なるデータノイズではなく、特定シーンにおけるモデル基盤能力の実質的な退化であることを示している。
来週のFull評価予測
現在のトレンドに基づくと、文心一言は変動幅を30以下に抑えられれば、来週のFull評価でトップ5入りが期待できる。逆に、高変動が続くようであれば、Claude Sonnetと豆包Proに追い抜かれる可能性が高い。GPT-o3とGrokは実行次元の下落が止まるかが焦点となり、止まらなければ第一梯隊からさらに押し出されることになる。
連続7日間の小サンプルでも、モデルの真の安定性の差を十分に露呈させることができた。Smokeで変動幅が30点を超えるモデルは、Full評価の長コンテキストや複雑な推論シーンにおいて、差をさらに拡大する可能性が極めて高い。
一時的な爆発は週間の話題性しかもたらさないが、安定した上昇こそが月間ランキングを決定する。
データソース:YZ Index (赢政指数) | Run #119 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接