11個のAIモデルが一斉に40点急上昇:プログラミングテストで何が起きたのか?

もし11個のAIモデルのプログラミング能力が1週間で一斉に約40点急上昇するのを見たら、あなたの第一反応は何だろうか?その通り、テスト基準が変わったのだ。しかし今回の変化の背後には、より注目すべきシグナルが隠されている。

異常データの背後にある3つの重要なシグナル

今週の評価データは「常軌を逸している」と言える:DeepSeek R1のプログラミング能力は47.4点急上昇し、豆包Pro、Grok 3は同時に42.4点上昇、普段安定しているClaude Opus 4.6でさえ42点も急上昇した。さらに奇妙なのは、すべてのモデルの上昇幅が29-47点の区間に集中していることで、まるで見えない手が操作しているかのようだ。

しかし本当に注目すべきなのは、この明らかなテスト調整ではなく、隠されている3つのシグナルだ:

シグナル1:中国製モデルが初めて全面的にリード

テスト要因の影響を除いても、今週の上位4モデルのうち3つが中国製だ:豆包Pro(67.0点)、DeepSeek V3(66.6点)、文心一言4.0(64.2点)。私がAIモデル評価を追跡して以来、中国製モデルが総合ランキングでこれほど密集して上位を占めるのを見るのは初めてだ。

特に注目すべきは、DeepSeek R1がプログラミング次元で67.9点に達し、今週最もプログラミング能力の高いモデルとなり、プログラミングに長けているGrok 3(64.9点)をも上回ったことだ。

シグナル2:OpenAIの崖っぷちからの転落

GPT-o3は今週唯一のマイナス成長を示した:長文コンテキスト能力が33.5点急落し、62.3点から28.8点に直接落ちた。さらに懸念すべきは、GPT-4oとGPT-o3がそれぞれ39.2点と34.5点で最下位となり、これはOpenAIモデルが主流評価で初めて全面的に遅れを取ったことだ。

データによると、GPT-o3の長文処理における28.8点は、1位のGrok 3(83.0点)の半分にも満たない。この差はもはや「それぞれに長所がある」では説明できない。

シグナル3:長文が新たな戦場に

各モデルの次元別得点を詳しく分析すると、興味深い現象が浮かび上がる:長文処理能力がモデルの優劣を分ける重要な指標になりつつある。上位6モデルの長文得点はすべて77点以上で、Grok 3は83.0点に達し、Qwen Maxが80.6点で僅差で続いている。

このトレンドの背後にある論理は明確だ:RAG(検索拡張生成)技術の普及に伴い、モデルが長文書、長会話を処理する能力がますます重要になっている。理解の正確性を維持しながら、より長いコンテキストを処理できる者が、実際の応用で優位に立てる。

テスト基準の変化が示す業界トレンド

今週のプログラミングテストは明らかに調整された(問題の難易度が下がったか、採点基準が緩和された可能性がある)が、この調整自体が重要な情報を示している:業界は「良いプログラミング能力とは何か」を再定義している

各モデルの相対的な上昇幅の差から見ると、DeepSeekシリーズ(R1が47.4点上昇、V3が42.6点上昇)の向上が最も顕著で、GPT-4oは29.2点しか上昇していない。この差別化された向上は、新しいテスト基準がコード理解、デバッグ、リファクタリングなどの高度な能力により偏っており、単純なコード生成だけではないことを示している。

警戒すべき3つのトレンド

第一に、知識次元の全般的な低迷。1位の豆包Proでさえ知識得点は49.6点に過ぎず、50点を突破したモデルは一つもない。これは長文とプログラミング能力を追求する一方で、基礎知識の正確性が軽視されていることを示している。

第二に、評価基準の頻繁な変更。1週間でこれほど大幅な集団的な点数上昇が起きることは、現在のAI評価体系の未熟さを反映している。これはモデル選択に極めて大きな不確実性をもたらしている。

第三に、総合能力の分化の加速。上位モデル(60点以上)と下位モデル(40点以下)の差が拡大しており、中間層がますます少なくなっている。これはAIモデル市場で「勝者総取り」の状況が現れる可能性を示唆している。

大胆な予測:2024年末までに、すべての次元で80点を突破する初の「スーパーモデル」が登場し、それは中国から生まれる可能性が高い。


データソース:YZ Index | Run #37 | 元データを見る