100の評価問題、11の最先端モデル、今週の測定結果を見て息を呑んだ——ランキングの変化のせいではなく、データの裏に潜む3つの危険信号のせいだ。
信号その1:安定性が贅沢品になった
GPT-o3の安定性が今週8.7ポイント急上昇した。この数字は目を引く。なぜなら、総合得点はわずか68点で、11モデル中最下位だからだ。最下位のモデルの安定性が大幅に向上したということは何を意味するのか?
OpenAIがようやく気づいたということだ。ユーザーは、時に90点、時に40点という「統合失調症」的な製品よりも、60点でも安定したモデルを好むということに。
さらに皮肉なのは、同時期にClaude Opus 4.6の安定性が7.6ポイント暴落したことだ。かつて最も安定したモデルの一つだったClaudeは、今回かなり手痛い転落を見せた。最近のユーザーフィードバックを調べたところ、共通点を発見した:3月中旬から、Claudeは簡単なコードデバッグタスクでさえ「申し訳ございません、このリクエストを完了できません」という応答を頻繁に返すようになったのだ。
文心一言4.0の安定性も3.7ポイント低下した。百度は最近、基盤アーキテクチャを猛烈に反復更新しているが、どうやら動きが大きすぎて体力を消耗したようだ。
信号その2:長文コンテキスト能力の集団的後退
今週最も奇妙な現象:4つのモデルの長文コンテキスト処理能力が同時に低下した。
Claude Sonnet 4.6:-5ポイント
DeepSeek V3:-4ポイント
GPT-4o:+5.5ポイント(唯一の逆行上昇)
その他のモデル:基本的に横ばいか小幅低下
これは偶然ではない。テストデータを分析したところ、問題は主に32Kトークン以上の超長文テキスト処理で発生していることがわかった。入力が32Kを超えると、モデルの精度は崖から落ちるように低下し、特に段落を跨いだ推論を必要とするタスクで顕著だった。
これは現在のTransformerアーキテクチャの天井を露呈している——注意機構が超長シーケンスを処理する際の計算複雑度が二乗で増加するため、各社はハードウェアコストと効果の間で困難なバランスを取っている。
興味深いことに、GPT-4oは逆行して5.5ポイント上昇した。内部情報によると、OpenAIは最近新しいスパース注意機構をテストしており、初期成果が見られるようだ。ただし、この向上が持続可能かどうかは、まだ観察が必要だ。
信号その3:中国産モデルがゲームのルールを変えている
豆包 Proは今週、知識作業の次元で7.9ポイント急上昇し、総合ランキングで首位を維持した(83.7点)。この成績は何を意味するのか?
まず、ByteDanceの計算能力の優位性が現れ始めている。他のメーカーがまだH100の順番待ちをしている間に、ByteDanceはすでに自社開発のトレーニングクラスターを大規模に展開し始めている。さらに重要なのは、豆包が中国語コーパスの蓄積において天然の優位性を持っていることだ——TikTokが毎日生成する高品質な中国語コンテンツは、他のモデルが追いつけないレベルだ。
DeepSeekは長文コンテキスト能力が4ポイント低下したものの、依然として第2位を維持している(80.8点)。R1バージョンの安定性が1.3ポイント向上したことは、この控えめな会社が着実に製品を最適化していることを示している。
それに比べて、Qwen Maxのプログラミング能力が4ポイント低下したのは少し目立つ。アリババは最近、Qwen 2.5のオープンソース版に重点を置いており、どうやら一方に偏ってしまったようだ。
見過ごされているGrok 3
Grok 3は今週最も過小評価されている選手かもしれない。知識作業能力の1.8ポイントの小幅上昇は目立たないように見えるが、その項目別データを詳しく見ると:プログラミング89.3点(第2位)、長文テキスト87.0点(第3位)、知識作業78.7点。
これは短所のない六角形の戦士だ。イーロン・マスクのTwitterデータの優位性が効き始めており、特にリアルタイム情報処理とマルチモーダル理解において顕著だ。
3つの予測
今週のデータに基づいて、私は大胆に3つの予測をする:
1. 今後2か月以内に、少なくとも3社が超長文コンテキスト(128K+)の軍拡競争から撤退を発表するだろう。代わりに32K以内の処理品質の最適化に転じる。理由は簡単だ:ROIが見合わない。
2. 安定性が次の段階の核心的競争力となる。GPT-o3の逆襲パスがより多くのメーカーに模倣されるだろう——まず安定性を保証し、その後で極限の性能を追求する。
3. 中国産モデルは6月までにGPT-4oを全面的に超越する。豆包 Proはすでにこの道が通用することを証明しており、DeepSeekと文心一言も力を蓄えている。
AIモデルの競争は、「誰のピークがより高いか」から「誰の下限がより安定しているか」へと変化している。このマラソンでは、爆発力よりも持久力の方が重要だ。
データソース:YZ Index | Run #33 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接