Smoke 本日の10問クイックテストの結果は、モデル間の実行能力における大きな差を直接的に露呈した。Grok 4 は98.34点で1位に位置し、コード実行で満点を獲得、素材制約は96.3点で warn 評価のみ、全体として最も安定したパフォーマンスを示した。
Claude シリーズはなぜ集団的に失速したのか
Claude Opus 4.7 のメインランキングは昨日の高位から31.3点直接下落し、コード実行は59.4点の暴落で38.1まで低下した。Sonnet 4.6 も同様に30.3点下落し、実行スコアは47.5減少。両モデルの誠実性評価はいずれも pass から warn に変わり、回答の一貫性に問題が生じていることを示している。
実行スコアの重みはメインランキングで0.55を占め、これはコードタスクのパフォーマンスが低下すれば、メインランキングが大幅に引き下げられることを意味する。本日テストされた10問のうち、Claude シリーズは多段階推論やツール呼び出しが必要な問題で明らかにミスを犯し、生ログには中間ステップの中断が複数回発生していることが示されている。
実行満点陣営と下落陣営の対比
Grok 4、Qwen3 Max、DeepSeek V4 Pro、Gemini 2.5 Pro の4モデルがコード実行で100点を獲得し、上位4位を占めた。そのうち Gemini 2.5 Pro はメインランキングで15.9点上昇したが、これは主に実行スコアの回復によるもので、素材制約はかえって14点下落し、誠実性評価は fail から warn に変わった。
豆包 Pro、GPT-5.5、Gemini 3.1 Pro、GPT-o3 の実行スコアはいずれも66.7で、昨日からさらに下落した。文心一言 4.5 の実行スコアはわずか50で、前日比でさらに42.5点下落し、素材制約は95点に達したものの、実行の弱さにより9位にとどまった。
業界動向における真のシグナル
Claude シリーズが Smoke のようなクイックテスト場面で示した実行のブレは、軽量で限定された素材タスクにおける一貫性の不足を反映している。Grok 4 と Qwen3 Max は同条件下で高い完成率を維持しており、タスク指示の解析とコード生成パスがより信頼できることを示している。
実行スコアが連日激しく変動するモデルについては、バージョン反復の敏感な時期に入っていないか警戒する必要がある。本日のデータは2種類のモデルを明確に区分した:一方は実行可能なコードを安定して出力でき、もう一方は同一問題で繰り返しミスを犯す。
実行能力が崩壊すれば、メインランキングは残酷に書き換えられる。
データソース:YZ Index (赢政指数) | Run #126 | 元データを表示
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接