GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

Smokeの本日10問快速テスト結果は、Geminiシリーズを地面に押し付けて摩擦するような結果となった。Gemini 3.1 Proのメインボードは昨日の97.2点から23.2点の大幅下落、Gemini 2.5 Proも22.6点下落し、実行と材料制約の両項目が同時に低迷した。

Claude二強が上位2位を堅持、実行面でほぼ満点

Claude Sonnet 4.6とOpus 4.7がそれぞれ97.5点と96.51点で上位2位を占め、実行次元では共に97.5の高得点を獲得。Sonnet 4.6はコード実行と材料制約で完璧なバランスを実現し、0.55×実行+0.45×制約の加重式の下で依然として最高位を維持した。

国産モデルが集団的に上位進出、Qwenと豆包の上昇幅が驚異的

豆包 Proは96.06点で3位、Qwen3 Maxはメインボードで26.2点上昇し、実行面では昨日の低位から一気に96点まで引き上げられた。両モデルは材料制約面でClaudeとなお3-5点の差があるが、実行能力はすでに第一グループに入った。

Geminiと文心の異常信号が集中的に発生

Gemini 3.1 Proの制約次元は昨日の93.8点から86.5点に下落し、2日連続で大幅な変動が発生した。文心一言4.5は直接Fail判定を受け、誠実性評価がpassからfailへと下落、これはSmoke評価の歴史上でも比較的稀なケースである。

GPT-o3も黄信号が点灯し、誠実性評価がpassからwarnに転じ、制約スコアはわずか83.3点。DeepSeek V4 ProとGPT-5.5もwarn区間に入っており、材料制約が現在のモデルの真の信頼性を区別する重要なボトルネックになっていることを示している。

実行スコアはトレーニングを積み上げることで稼げるが、制約スコアには長期的なアラインメントとエンジニアリング検証が必要だ。

本日のデータは再度実証している:Claudeは軽量快速テストにおいて依然として最高の一貫性を維持しており、Geminiシリーズはおそらくバージョンイテレーションの陣痛期にある可能性がある。文心一言の誠実性評価の下落は、継続的な追跡に値する。

次回のSmoke評価でGeminiが依然として下落を止められなければ、業界の同シリーズに対する可用性期待はさらに引き下げられるだろう。


データ出典:YZ Index | Run #124 | 元データを表示