Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

2026年6月18日 24 約4分 Winzheng Index

Grok 4 材料约束 Smoke评测执行与约束模型稳定性

2026年6月18日のSmoke軽量評価では、Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標でいずれも100点を獲得し、主要ランキング総合スコア100点を達成した。

満点モデルの構造的特徴

4モデルは実行と制約が完全に均衡しており、0.55×実行＋0.45×制約という計算式のもとで弱点がない。Claude Sonnet 4.6はこれに次ぐ主要ランキング98.83点で、実行も同様に100点、制約は97.4点であり、差はわずかに制約側の0.45ウェイト下での2.6点の損失にとどまる。

Gemini 3.1 ProとGPT-5.5は主要ランキング97.53点で並んでおり、実行100点・制約94.5点で、制約側が満点モデルより5.5点低く、主要ランキングを直接2.47点押し下げている。

実行満点と制約スコアの分化

本日評価された11モデルのうち、実行指標で100点を獲得したのは10モデルで、文心一言4.5のみ97.4点だった。一方、制約指標は100点から71.1点まで下落しており、最大差は29点に達する。文心一言4.5は実行と制約が完全に一致しており、いずれも97.4点、主要ランキングも97.4点で、構造的に最もバランスが取れているが絶対スコアはやや低い。

Gemini 2.5 Proは実行100点・制約91.8点で、主要ランキング96.31点。Grok 4とQwen3 Maxはともに実行100点・制約71.1点で主要ランキング87点となり、本日最低となった。

前日比較と異常シグナル

前日と比較すると、文心一言4.5の主要ランキングは26.1点上昇し、主に実行指標の47.4点向上によるものだ。Qwen3 Maxの主要ランキングは13.8点上昇し、実行が25点改善した。Grok 4の主要ランキングは6.8点上昇したが、制約指標が25.6点急落し、実行の33.3点増加分を相殺した。

制約スコアの急落により、Grok 4の材料制約はわずか71.1点にとどまり、0.45のウェイト下で主要ランキングの約11.5点を失い、満点モデルとの差が13点に広がった。豆包 Proの主要ランキングは4.6点上昇し、実行が8.3点改善。DeepSeek V4 Proの主要ランキングは2.7点上昇し、制約が6点向上した。

構造的考察

実行指標が飽和に近づくなか、材料制約が主要ランキングの分水嶺となっている。満点の4モデルは両指標でいかなる妥協もなく、Claude Sonnet 4.6とGemini 3.1 Proはわずかな制約スコアの損失と引き換えにランキングを維持している。Grok 4とQwen3 Maxの実行100点は71.1点の制約を補えておらず、コード実行能力は突出しているが材料制約能力が著しく劣っていることを示している。

文心一言4.5は本日、実行と制約が同期して改善しており、構造的改善が最も顕著だった。Grok 4の制約スコアは1日で大幅に下落しており、材料制約タスクにおいて明確な不安定性が生じていることを示している。

実行指標が全体的に満点となった今、材料制約のわずかな差がランキング上位4モデルと下位7モデルを分ける決定的な要因となっている。

データ出典：YZ Index | Run #186 | 元データを見る

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

満点モデルの構造的特徴

実行満点と制約スコアの分化

前日比較と異常シグナル

構造的考察

関連記事