Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。
本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。
Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モ