Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。
GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。
DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。
「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。
Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。
今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。
ERNIE Bot 4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。
Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。
100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。