2モデルがゼロ実行で爆死、Claudeは88.75点を死守

2026年5月15日 11 約7分 Winzheng Index

Claude Opus 4.7 材料约束 Smoke评测诚信评级模型日报

本日のSmokeは単にClaudeが勝ったという話ではない：9つのモデルがコード実行で満点を取り、真に差をつけたのは材料制約だ。一方で文心一言4.5とGrok 4はコード実行で直接ゼロとなった。

5月15日午前3時、YZ Index Smoke軽量評価が11の主流モデルに対して10問の高速テストを実施し、コアでは2つの監査可能項目のみを確認した：コード実行と材料制約、メインランキングの公式は：0.55×コード実行 + 0.45×材料制約。結果は鮮烈だった：Claude Opus 4.7が88.75で首位、コード実行100、材料制約75、誠実性評価pass；Claude Sonnet 4.6とQwen3 Maxはともに86.05、実行は同じく満点、材料制約はいずれも69。

第一判断：コード実行は「満点化」しつつあり、材料制約こそが真のハードル

本日のトップ9のコード実行はすべて100点で、Claude、Qwen、豆包、GeminiからGPT-o3、DeepSeek V4 Proまで、全て問題を実行できている。これはひとつのトレンドを示している：軽量タスクにおいて、主流モデルのコード実行能力はすでに同質化の区間に入った。言い換えれば、書ける、走らせられる、ということはもはや希少ではない。

真の差は材料制約に現れる。Opus 4.7は75点を獲得し、本日唯一70点台に乗ったモデルとなった；Sonnet 4.6とQwen3 Maxは69；豆包 Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、DeepSeek V4 Proはすべて64.5で止まった。この分布は、モデルが「材料に基づいて発言し、越境せず、勝手な補完をしない」という点で、依然として完全には解決されていないことを示している。

本日のランキングは実行力競争ではなく、制約力スクリーニングだ。誰がより材料を遵守できるか、それこそが企業利用に近づく鍵だ。

Claudeが勝ったが、Sonnetには危険信号がある

Claude Opus 4.7の本日の勝利はクリーンだ：実行100、材料制約75、誠実性評価pass、メインランキング88.75。これは特定の一項目の爆発ではなく、「満点実行＋相対的により強い制約」での最適な組み合わせを獲得したものだ。

しかし同じClaudeファミリーのSonnet 4.6は安泰とは言えない。依然として86.05で2位だが、材料制約は昨日比27.5点の急落で、本日最も注視すべき異常のひとつだ。本番環境においては、材料制約の突然の低下は単問のミスよりも厄介で、それはしばしばモデルが引用境界、指令服従、もしくはコンテキスト選別においてドリフトが発生していることを意味する。Claudeブランドの強みはずっと信頼性のある出力であり、もしSonnetが今後さらに下落し続けるなら、「デフォルトの安全な選択肢」から「再確認が必要な高性能な選択肢」に変わってしまう。

国産モデルは明暗が分かれた：Qwenは安定、文心は崩壊

Qwen3 Maxは本日非常に強いパフォーマンスを見せた、メインランキング86.05、Claude Sonnet 4.6と並んで2位、実行100、材料制約69、誠実性評価pass。この成績の価値は、単項で点を稼いだのではなく、2つのコア指標の両方で第一梯隊に入ったことにある。国内企業にとって、Qwen3 Maxはすでに「代替可能な選択肢」ではなく、主力候補プールに入りうるモデルとなった。

豆包 Proも明確な回復を見せ、メインランキング84.03、昨日比10.2上昇、実行は25点増加；しかし材料制約は8点低下しており、これは本日の改善が主に実行修復から来ており、制約能力全体の強化ではないことを示している。

一方、文心一言4.5は本日非常に厳しい結果となった：メインランキング29.03、昨日比44点の急落、コード実行は昨日から69点下落してゼロ、材料制約も13.5低下して64.5、誠実性評価warn。Smokeのような10問の高速テストにおける実行ゼロは強い警告であり、実行経路、ツール呼び出し、問題形式適応、または出力フォーマットの問題に起因する可能性があるが、原因が何であれ、ユーザーが目にする結果はひとつだけだ：タスクが完了していない。

Grok 4とDeepSeekの問題は異なる

Grok 4はメインランキング11.25、コード実行0、材料制約25、誠実性評価fail、昨日比メインランキングは38.2下落。これは小さな変動ではなく、コア能力が今回の高速テストで失われたことを意味する。特に材料制約が25しかないことは、コードタスクをうまくこなせなかっただけでなく、「与えられた材料に基づいて回答する」という境界も守れなかったことを意味する。

DeepSeek V4 Proはより微妙だ：実行100、材料制約64.5、しかし誠実性評価がpassからfailに低下、メインランキングは74。ここでのポイントはコードが書けるかどうかではなく、安心して同一の調達プールに加えられるかどうかだ。誠実性評価は参入のハードルであって、加点項目ではない；一度failとなれば、企業は実行満点だけに注目するのではなく、まず出力に信頼できないリスクが存在するかを問うべきだ。

第一梯隊：Claude Opus 4.7、メインランキングで唯一90に近く、材料制約75。
追随者：Claude Sonnet 4.6、Qwen3 Max、スコアは同じだが、Sonnetには制約急落の信号がある。
中段混雑区：豆包、Gemini、GPT-o3などはすべて84.03、差は主に誠実性評価とその後の変動にある。
リスク区：文心一言4.5、Grok 4、実行ゼロは軽く片付けるべきではない。

私の結論は明確だ：2026年のモデル競争は、すでに「誰がより上手に答えるか」から「誰がより制御を失わないか」へと移行している。本日のSmokeランキングが示すシグナルは、コード実行はインフラ能力となりつつあり、材料制約こそがハイエンドモデルの堀であるということだ。

次の段階では、企業がモデルを購入する基準は、最も雄弁なモデルではなく、最も境界を越えにくいモデルへと変わる。

データソース：YZ Index | Run #117 | 元データを見る

2モデルがゼロ実行で爆死、Claudeは88.75点を死守

第一判断：コード実行は「満点化」しつつあり、材料制約こそが真のハードル

Claudeが勝ったが、Sonnetには危険信号がある

国産モデルは明暗が分かれた：Qwenは安定、文心は崩壊

Grok 4とDeepSeekの問題は異なる

関連記事