YZ Index 2026年6月17日〜21日における11モデルのSmokeクイックテストの結果、Grok 4は初日の80.2点から最終日の100点へと上昇し、トレンド上昇幅19.8点を記録して今週最も上昇幅が大きいモデルとなった。
安定的に上昇するモデルは中低ベースラインのモデルに集中
DeepSeek V4 Proの今週の平均は98.7点で、初日97.3点・最終日100点、トレンド上昇幅2.7点、変動幅もわずか2.7点と最もバランスの取れたパフォーマンスを示した。GPT-o3の平均は97.9点、トレンド上昇幅2.3点で、最終日も100点に達した。豆包 Proの平均は96.7点、トレンド上昇幅1.2点、最終日は96.63点。Qwen3 Maxは73.25点から80.82点へと上昇し、トレンド上昇幅7.6点、平均87.7点。文心一言 4.5は71.33点から88.28点へと上昇し、トレンド上昇幅17点、平均84.3点。これらのモデルは7日間・10問のクイックテストを通じてポジティブなトレンドを維持し、明確な反落は見られなかった。
横ばいのモデルは高水準のClaudeが中心
Claude Opus 4.7の平均は99.4点で、初日100点・最終日99.28点、トレンドの微減は0.7点、変動幅は2.3点と最も安定した高水準を維持した。Claude Sonnet 4.6の平均は96.7点、トレンドの微減は0.8点。Gemini 2.5 Proの平均は92.3点、トレンドの微増は0.5点。GPT-5.5の平均は92点、トレンドの微減は0.8点。これらのモデルはスコアの幅が狭まっており、継続的なブレイクスルーには至っていない。
高変動モデルにリスクが集中
Gemini 2.5 Proの変動幅は28.3点、Gemini 3.1 Proは29点、GPT-5.5は26.3点、Qwen3 Maxは26.8点、文心一言 4.5は26.4点。YZ Indexの安定性指標の計算式はmax(0, 100-stddev×2)であり、標準偏差が高いと安定性スコアが直接低下し、同種の問題に対するスコアの一貫性が低いことを意味する。Grok 4の変動幅は19.8点で、トレンドは力強いものの、日次スコアのジャンプも同様に顕著だ。
誠実性評価と可用性シグナル
今週のSmokeデータでは誠実性評価の変化は記録されず、すべてのモデルは稼働状態を維持した。安定性と可用性はあくまで稼働シグナルとして扱われ、メインランキングのコード実行・資料制約の評価軸には含まれない。
来週のFull評価の予測
DeepSeek V4 ProとClaude Opus 4.7は平均が高く変動幅が小さいため、来週の完全評価でも上位をキープする可能性が高い。Grok 4は19.8点のトレンドが継続すれば上位3位以内に入る可能性があるが、19.8点の変動幅が縮小するかどうかを見極める必要がある。GeminiシリーズとGPT-5.5の高変動は引き続き安定性スコアを押し下げ、エンジニアリング判断サイドランキングのパフォーマンスに影響を与える可能性がある。Qwen3 Maxと文心一言 4.5の上昇チャンネルは依然として存在するが、ベースラインが低いため、より大きなサンプルで継続性を検証する必要がある。
高変動モデルはSmokeフェーズですでに一貫性の弱点を露呈しており、来週のFull評価でこの差がさらに拡大する可能性が高い。
データソース:YZ Index | Run #190 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接