今週のYZ Index v6メインボードの主要な発見:6つの旧モデルが一度に退出し、5つの新モデルが同時に参入。メインボードのトップ10構図が1週間で大規模な入れ替えを完了しました。
退出と参入:データが反映するイテレーション速度
DeepSeek V3のメインボードスコアはv5期の75.1から直接ゼロにリセット。DeepSeek R1、文心一言4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4oの6モデルが今週揃って評価から退出しました。同じ期間に、Qwen3 Maxが68.5点、文心一言4.5が67.0点、DeepSeek V4 Proが65.3点、Gemini 3.1 Proが65.2点、Grok 4が64.9点、Claude Opus 4.7が63.9点、GPT-5.5が62.9点の7つの新モデルがメインボードに参入しました。
この「旧モデルをゼロリセットし、新モデルをゼロから採点」という運用により、メインボードの平均点は約4.8点低下し、評価側がより高バージョンまたは全く新しい学習を行ったモデルで旧ベンチマークを置き換えていることが示されています。
コード実行は依然として勝負を分ける核心要素
現在のメインボード首位Claude Sonnet 4.6のコード実行は86.80点、豆包Proは89.80点で逆転しコード実行単項首位に。DeepSeek V4 Proのコード実行は86.70点、Grok 4は86.80点で、いずれも豆包Proに迫っており、新モデルがコード能力で断層を生じていないことを示しています。
素材制約の次元では明確な分化が見られます:GPT-o3は単週で素材制約が18.1点上昇し、指示遵守とコンテキスト一貫性について的を絞った最適化を行っていることが示されました。一方、豆包Proの素材制約は5.7点低下、Gemini 2.5 Proは5点低下しており、一部モデルが長文コンテキストや複数ターン制約下で後退していることがわかります。
エンジニアリング判断サイドボード(AI補助評価)は小幅変動
Claude Sonnet 4.6のエンジニアリング判断は52.90点、Claude Opus 4.7は55.80点で、2つのClaudeモデルがエンジニアリング判断サイドボードでリードを維持しています。Qwen3 Maxは初参入で45.20点を獲得し、Grok 4と並びました。新モデルが要件分解と方案実現性において一線級の水準に近づいていることを示しています。
メインボードの実際の順位と重み付けの影響
core_overall=0.55×コード実行+0.45×素材制約で計算すると、豆包Proはコード実行が最高であるものの、素材制約70.80点が足を引っ張り、最終的なメインボード81.25点はClaude Sonnet 4.6の83.02点に次ぐ2位となりました。Gemini 2.5 Proのメインボードは79.04点で、素材制約71.50点が主要な弱点です。
新規参入のQwen3 Maxはメインボード78.98点、コード実行85.50点、素材制約71.00点で、総合パフォーマンスはGPT-5.5とDeepSeek V4 Proを上回り、初登場でトップ6入りを果たし、強烈なインパクトを示しました。
旧モデルの集団退場は失敗ではなく、ベンダーがリソースを次世代製品に集中させていることを意味します。新モデルが68.5点で初登場したことは、次のメインボード争奪戦がさらに激しくなることを示唆しています。
現在のランキングから見ると、Claude Sonnet 4.6と豆包Proが依然としてトップ2を堅持していますが、Grok 4、Claude Opus 4.7、Gemini 2.5 Pro、Qwen3 Maxの4モデルが第二集団を形成し、互いの差は3点以内に収まっています。
来週注目すべきは、GPT-o3の素材制約が18.1点の上昇幅を維持できるか、そして豆包Proが素材制約を72点以上に戻せるかです。両方が同時に発生すれば、メインボードのトップ3順位は再びシャッフルされるでしょう。
YZ Index v6のルールでは、コード実行と素材制約の2つの監査可能な次元のみがメインボード順位を決定し、その他はすべてサイドボードまたは運用シグナルとなります。ベンダーが順位を急速に上げたい場合は、この2つの次元で同時に注力する必要があり、単一点の突破だけではもはや構図を変えるには不十分です。
データソース:YZ Index | Run #122 | 原データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接