Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

2026年5月28日 558 約4分 Winzheng Index

代码执行材料约束 Gemini 3.1 Pro 评测波动模型稳定性

本日のSmoke評価が未明3時に発表され、11の主流モデルがメインランキングで集団崩壊、平均下落幅は42点に達した。Gemini 3.1 Proが40.48点で首位に立ったものの、このスコア自体が昨日比33.5点の暴落であり、実行次元はわずか20点、制約次元は65.5点にとどまった。

なぜ実行次元が突然崩壊したのか

主因はコード実行次元に集中している。昨日まで多くのモデルの実行スコアは100点以上であったが、本日は一気に20または0まで腰砕けとなった。Gemini 3.1 Pro、Doubao Pro、Gemini 2.5 Pro、Grok 4、DeepSeek V4 Pro、ERNIE Bot 4.5の6社の実行スコアはいずれも20で、Claude Sonnet 4.6以下の5社は直接ゼロとなった。

計算式によると、実行の重みは0.55であり、本日の実行スコア崩壊が全体のメインランキング腰砕けを直接引き起こした。制約次元には小幅な変動があったものの、実行の損失を相殺するには不十分であった。Qwen3 MaxとClaude Opus 4.7の実行スコアは100+から0へと急落し、1日のメインランキング下落幅はそれぞれ52.4点と52.3点に達した。

異常の背景にある可能性

全モデル暴落は極めて稀であり、最も可能性が高いのは、本日未明にテスト問題の難易度または評価基準が調整されたことである。実行次元が高位から一気にゼロ、または20まで低下したことは、新規追加された問題がコードの正確性、境界処理、または多段階推論への要求を大幅に引き上げたことを示唆している。

もう一つの可能性は、一部モデルが未明の時間帯にサーバー側のダウングレードまたはコンテキスト処理の異常が発生し、コード実行の一貫性が低下したというものだ。注目すべきは、Qwen3 MaxとClaude Opus 4.7の誠実性評価がwarnからpassに転じたにもかかわらず、メインランキングは依然大幅下落しており、誠実性の改善は能力の断層を補えないことを示している。

業界の視点から見ると、2026年5月のモデルイテレーションはすでに精緻化の段階に入っており、汎用能力が均質化した後、コード実行が最も短所を露呈しやすい能力となっている。本日のデータは改めて、制約次元は相対的に安定しており、実行次元の変動は激しく、実際のエンジニアリングシーンにおけるモデルの信頼性は依然疑問が残ることを証明している。

全モデルが同時に同じ次元で崩壊する場合、問題はモデル自体ではなく、評価自体またはインフラにある可能性が高い。

本日の結果は、開発者のモデル選定に明確なシグナルを送っている：タスクがコード実行に大きく依存する場合、現在のいかなるモデルも十分なフォールバックと人手による検証を確保する必要がある。

データ出典：YZ Index（赢政指数） | Run #136 | 原データを見る

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

なぜ実行次元が突然崩壊したのか

ランキング背後の真のシグナル

異常の背景にある可能性

関連記事