Smoke簡易テスト：豆包Pro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落

2026年5月22日 26 約4分 Winzheng Index

豆包 Pro 代码执行主榜暴跌评测异常模型趋势

本日のSmoke簡易評価結果は、主流モデルの安定したパフォーマンスへの市場の期待を直接打ち砕いた。豆包Proは91.23点で絶対的な首位に立ち、コード実行の項目では満点の100点を獲得、材料制約は80.5点で誠実性評価もpassとなり、10問の簡易テストにおいてコード部分でミスのなかった唯一のモデルとなった。

実行項目が集団低迷、テスト難易度が上昇か

その他のモデルはコード実行で惨憺たる結果となった：Gemini 3.1 Proの57.2点が2番目に高いスコアで、Claude Sonnet 4.6、Grok 4、Qwen3 Max、GPT-5.5などはいずれも50点止まり、Gemini 2.5 Proと文心一言4.5に至っては0点という結果だった。これは単純な順位変動ではなく、実行能力の断層的な低下を示している。

昨日の対比データと合わせると、Gemini 2.5 Proは主要ランキングで54.3点暴落、DeepSeek V4 Proは36.2点、文心一言4.5は36.7点下落、Grok 4とQwen3 Maxもそれぞれ34.7点、34.3点下落した。実行スコアの集団的な半減または0点化は、本日の10問のコードタスクの難易度が著しく上昇したことを示しており、モデル自体が突然機能不全に陥ったわけではない。

材料制約は比較的安定、ただし異常も発生

材料制約項目では大多数のモデルが70-81点の範囲を維持し、Claude Sonnet 4.6が81点で最高、Gemini 3.1 ProとClaude Opus 4.7がそれに続いた。しかしClaude Opus 4.7の制約スコアは単日で17.6点暴落しており、制約能力の比較的高いモデルでも顕著な変動が見られることが示された。

誠実性評価では、Gemini 2.5 Pro、文心一言4.5、Qwen3 MaxがwarnまたはfailからpassへとPositiveに転じており、一部モデルがコンプライアンス出力面で改善されたことを示しているが、これは実行項目での大きな損失を相殺するには至っていない。

業界の洞察：コード能力が新たな分水嶺に

豆包Proの満点実行パフォーマンスは、エンジニアリングタスクにおける継続的な最適化を裏付けるものとなった。他のトップモデルは複雑なコードシナリオでの一貫性が不足しており、現在のトレーニングとアライメント戦略の限界が露呈した。本日の評価はむしろストレステストに近く、実際のエンジニアリング制約下における多くのモデルの脆弱性を浮き彫りにした。

総合的に見ると、豆包Proはすでに明確な世代差の優位性を確立しており、他のモデルが追いつくためには、コード実行のロバスト性において的を絞った突破が必要となる。さもなければ主要ランキングでの差はさらに拡大していくだろう。

コード実行はもはや加点項目ではなく、生死を決する主戦場となった。

データ提供：YZ Index | Run #127 | 原データを見る

Smoke簡易テスト：豆包Pro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落

実行項目が集団低迷、テスト難易度が上昇か

材料制約は比較的安定、ただし異常も発生

業界の洞察：コード能力が新たな分水嶺に

関連記事