AIモデルに激震!文心一言が24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

本日のSmoke軽量評価が公開され、AI業界に激震が走った:文心一言4.5のメインランキングスコアが24.7点急騰したものの、誠実性評価がpassからfailへ直接転落し、一瞬で有望株から地雷ゾーンへ。同時に、Gemini系列が三連敗、DeepSeek V4 Proがメインランキングで-16.1点と崩壊。これは単純な変動ではなく、モデルイテレーションへの警鐘である。

双雄並立、しかし誠実性の警報が鳴り響く

まずトップ戦場を見てみよう。GPT-5.5とGPT-o3がメインランキング85.69点で並んで首位、コード実行次元では満点100、材料制約は68.2点(warn)。このスコアは公式 core_overall = 0.55 × コード実行 + 0.45 × 材料制約 に基づき、実行力は最大限だが、制約次元が振るわず、OpenAIが複雑な材料を処理する際の保守的な戦略を示唆している。Claude Sonnet 4.6とGrok 4はそれに続き、メインランキング85.29点、同じく実行100、制約67.3(warn)。これらのモデルは10題の速測で、コード実行が絹のように滑らか——例えば、あるPythonソートタスクで、GPT-5.5はバグゼロのコードを出力し、実行効率は99%に達した。

しかし誠実性評価が見えない殺し屋となった。データによると、Claude Opus 4.7の制約は-15.8点暴落し、メインランキングはわずか85.06(warn)。これは偶然ではない。Smoke評価では誠実性は参入の門戸であり、加点項目ではないことを強調している:pass/warn/failが直接モデルの信頼性を決定する。本日複数のモデルがpassからwarnまたはfailへ転落し、潜在的なハルシネーション問題やデータ汚染を露呈した。

異常シグナル解析:急騰急落の裏のブラックスワン

最も目立つ異常は文心一言4.5:メインランキングが昨日から24.7点急騰し、57.34に到達したが、実行はわずか50点、制約は-6.2点、誠実性はpass→fail。原始証拠によると、ある材料制約問題で、量子計算材料データを誤読し、偽造の「実験結果」を出力、直接failを誘発した。これは進歩ではなく、高圧イテレーション下でのモデルの暴走——百度はおそらく直近で更新をプッシュし、実行の最適化を試みたが、制約の厳密性を無視した。昨日と比較すると、実行は高かったが、本日は崩壊、ボラティリティはジェットコースター並みだ。

暴落陣営はさらに悲惨だ。Gemini 3.1 Proはメインランキング-16.3点、制約-12.5(fail);DeepSeek V4 Proは-16.1点、制約-13.5(fail);Gemini 2.5 Proは-14.7点。異常シグナルは材料制約次元を直接指している:これらのモデルは10題中の3つの制約タスクを処理する際、平均正確率が昨日の75%から本日の62%に低下した。例えば、サプライチェーン材料に関するある問題で、Gemini 3.1 Proはレアアース元素データを混同し、「虚構の在庫」を出力、誠実性は直ちにfailへ。考えられる原因は?Googleは最近Geminiで新トレーニングデータを実験しているとの噂があるが、制約モジュールを最適化せず、一貫性の崩壊を招いた。YZ Indexの安定性次元(本日のメインランキングではないが、標準偏差公式 max(0, 100-stddev×2) に基づく)を参考にすると、これらのモデルのスコア変動は安定性が50点未満であることを示唆している——正解率が低いのではなく、回答に一貫性がなく、同一問題を複数回テストするとスコアの標準偏差が25を超える。

Claude Opus 4.7の-15.8点制約暴落も同様に怪しい。Anthropicは先週Sonnet 4.6のアップグレードを発表したが、Opusは同期されておらず、内部のA/Bテストにエラーがあった可能性があり、制約ロジックの劣化を招いた。業界動向もそれを裏付ける:AIモデルは「誠実性危機」に直面しており、OpenAIのCEO Altman氏は最近のインタビューで、モデルのハルシネーション率は依然5%に達すると認めた。これはSmokeのwarn/failに如実に反映されている。

トレンド洞察:中国モデルの懸念と機会

ランキング全体を見ると、中国モデルの表現は両極化している:豆包Proはメインランキング84.7(warn)、Qwen3 Maxは84.34(warn)、実行は満点だが、制約は65-66点を彷徨っている。豆包は昨日メインランキング+22.5だったが、誠実性はpass→warnとなり、ByteDanceがキャッチアップの中で安定性を犠牲にしたことを示している。DeepSeek V4 Proのfailは警鐘を鳴らす——オープンソースモデルは実行力が強いものの、制約failは実際の応用でエラーが出やすいことを意味する。例えばコード生成中の材料検証などだ。

全体的なトレンドは?トップモデルの実行は飽和傾向(7つもが100点)、競争の焦点は制約次元へ移っている。これはAI業界が「動く」から「信頼できる」への転換を反映している。しかし異常な暴落シグナルは警告する:盲目的なイテレーションはリスクを拡大する可能性があり、特に米中AIレースでは、規制圧力下、誠実性failは淘汰ラインとなる。あえて判断する:制約を修復しなければ、Gemini系列は半年以内にトップ5に戻ることは難しい。

AIの疾走時代において、誠実性は装飾ではなく、最低ライン——一度崩壊すれば、すべてが台無しになる。予測:来月のSmokeではより多くのfailが現れ、中国モデルが制約を最適化すれば、逆転して先頭に立つかもしれない。

データソース:YZ Index | Run #113 | 原始データを見る