3モデルが28分急落、Claudeは依然ほぼ満点

2026年5月16日 23 約7分 Winzheng Index

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束 Smoke评测

今日最も目を引くのはClaudeの勝利ではなく、トップモデル3つが同時に失速したことだ：GPT-5.5は主榜で28分下落、DeepSeek V4 Proは19.4分下落した。

5月16日午前3時、YZ Index Smoke軽量評価が11の主流モデルに対する10題の高速テストを完了した。今回は監査可能な2つのコア次元のみに注目している：コード実行と素材制約であり、主榜の計算式はcore_overall = 0.55 × コード実行 + 0.45 × 素材制約である。これは、実行能力が一度落ちると、主榜が急速に崩されることを意味する。

第一梯隊はもはや「リード」ではなく「圧倒」

Claude Sonnet 4.6は98.34で首位を獲得し、コード実行100、素材制約96.3、誠実性評価はpass。Claude Opus 4.7がそれに続き、主榜97.75、実行も同じく100、制約は95。両者の差はわずか0.59分だが、3位の豆包Proとの差は4分以上に広がっている。

これは通常のランキング優位ではなく、構造的優位である：Claudeの両モデルは「実行できるか」と「素材に基づいて発言できるか」の両方の段階でほぼ満点に近い。Smokeはわずか10題で、問題量は軽いが、高速テストであればあるほど、デフォルト状態でのモデルのエンジニアリング信頼性が露呈する。Claudeの今日のパフォーマンスは、特定のタイプの問題で爆発したのではなく、低エラー率で上限を守ったことを示している。

本日の主榜トップ3：Claude Sonnet 4.6が98.34、Claude Opus 4.7が97.75、豆包Proが93.48。3位の豆包Proは実行100だが、素材制約は85.5で、これがClaudeとの差の主な原因だ。

真の断崖は実行にあり：GPT-5.5とDeepSeekはともに50まで落ちた

今日最も警戒すべきはGPT-5.5とDeepSeek V4 Proだ。GPT-5.5は主榜56.08で、昨日比28分下落した。核心的な原因は非常に直接的で、コード実行が昨日のレベルから50分下落し、今日はわずか50しか残っていない。DeepSeek V4 Proは主榜54.64で19.4分下落し、実行も同じく50まで落ちた。

YZ Index主榜では、コード実行の重みは55%だ。これはプログラマーへの偏愛ではなく、実行問題が最も無駄が少ないからだ：結果が動けば動く、動かなければいくら説明しても無意味だ。GPT-5.5とDeepSeekの今日の下落幅は、問題が「回答スタイル」ではなく、検証可能な出力に断層が生じたことを示している。

この種の変動には通常3つの可能性がある：1つはモデルルーティングの切り替えで、ユーザーが受け取るのは同じ能力レベルではない。2つ目はセキュリティまたはツールポリシーの調整で、実行タスクが保守的に処理されること。3つ目は最近のサーバーサイドアップデートで回帰が導入されたこと。いずれにせよ、開発者にとっては不親切だ。開発シーンで最も恐れるのは遅さではなく、昨日動いたものが今日動かないことだからだ。

Gemini 3.1 Proは実行で勝ち、素材制約で負ける

Gemini 3.1 Proは本日の主榜85.96、実行100だが、素材制約はわずか68.8。GPT-o3は主榜84.48、実行100、素材制約65.5。両者の問題は似通っている：コード問題は対応できるが、厳格に素材に基づき、越境的な推論を避けることを要求されると、得点を失い始める。

これは企業ユーザーへの警告だ：もしあなたのビジネスがコード生成、スクリプト修正、構造化処理であれば、Gemini 3.1 ProとGPT-o3は依然として競争力がある。しかし、コンプライアンスQ&A、研究レポート要約、契約条項抽出のシーンであれば、素材制約の低スコアはリスクを拡大する。モデルが「賢い」ことは「規則を守る」ことと同じではない。

Qwen3 Max主榜85.39、実行87.5、素材制約82.8、誠実性評価はwarn、バランスの取れたパフォーマンスだが、参入シグナルは引き続き観察が必要。
Gemini 2.5 Pro主榜74、実行100、素材制約74.3だが、誠実性評価はfail。能力不足ではなく、しきい値を超えていない。
Grok 4主榜47.75、昨日比36.5の大幅上昇だが、実行50、素材制約45で、依然最下位。

Grokの異常：データの基準自体も監査されるべき

本日の異常リストには「Grok 4：誠実性評価がFailに低下」と記載されているが、同じデータの本日のランキングではpassと表示され、昨日との比較でもfail→passと書かれている。この2つの情報は互いに矛盾している。監査可能な詳細に従い、本記事は「本日の誠実性評価pass、昨日比改善」の基準を採用するが、この件自体は指摘に値する：評価レポートが業界基準となるためには、モデルが監査されるだけでなく、データのラベリングも監査されなければならない。

Grok 4の主榜は36.5分の大幅上昇で、聞こえはよいが、本日の実行50、素材制約45で、依然として最下位だ。いわゆる反発は、異常な低水準から観測可能な範囲に戻ったというより、能力のブレークスルーではない。買い手にとって、このようなモデルは、ある日の上昇幅が大きいからといってコア生産ラインに組み込むことはできない。

結論：2026年のモデル競争は、ミスの少なさで勝負する

今日のSmoke高速テストは明確なシグナルを示している：トップモデル間の差は、もはや主に「答えられるかどうか」から来るのではなく、「制約下で持続的に検証可能な結果を出せるかどうか」から来る。Claude二強は実行100と高い素材制約でほぼ満点を守った。豆包Proは国産モデルが実行で満点を取れることを証明した。GPT-5.5とDeepSeek V4 Proは業界に、フラッグシップの肩書きが実行の回帰を阻止できないことを警告している。

私の判断は直接的だ：今後3か月で、企業の選定は「誰が最も賢いか」から「誰が最もミスを犯さないか」へとシフトする。モデル大戦の後半戦は、インスピレーションではなく、デリバリー可能性に報いる。

データ出典：YZ Index | Run #118 | 元データを見る