今週(2026-W12)のYZ Index評価では、AIモデル市場で稀に見る知識作業能力の集団的低下現象が発生した。主要8モデル中、6モデルが知識作業の次元で程度の差はあれ性能低下を示し、中でもGPT-o3は12.1ポイント暴落し、最近で最大の単項目下落幅を記録した。
コア発見:知識作業能力の普遍的退化
データによると、今週の知識作業能力低下は勾配分布を呈している:GPT-o3(-12.1)> Qwen Max(-9.8)> DeepSeek V3(-7.1)> GPT-4o(-6.1)> Claude Opus 4.6(-1.7)。この大規模な性能退化は、最近の各ベンダーのモデル更新戦略の調整、あるいは推論コストの最適化のために一部の知識検索能力を犠牲にしたことが原因の可能性がある。
注目すべきは、Claude Sonnet 4.6が今週唯一のプラス成長モデルとなったことで、安定性が3.8ポイント向上した。全体的な下降環境の中で、Anthropicの安定性最適化戦略は明らかに成果を上げている。
ランキング構造:DeepSeek双雄がリード、しかし優位性は縮小
DeepSeek V3とR1は依然として上位2位を占めているが、そのリード優位性は蝕まれつつある。DeepSeek V3の知識作業能力は7.1ポイント低下後75.5ポイントとなり、3位のClaude Sonnet 4.6との差は先週の5ポイントから2.3ポイントに縮小した。特にDeepSeek R1の安定性が7ポイント低下したことは、推論を強みとするモデルにとって危険信号である。
GPT-o3のパフォーマンスは失望的で、総合得点はわずか65.7ポイントで、すでに第一グループから脱落している。その知識作業能力は82.4ポイントから70.3ポイントに下落し、6位のQwen Max(71.8ポイント)よりも低い。
開発者向け選定アドバイス
1. プログラミングタスクの第一選択:Gemini 2.5 Pro(90.7ポイント)とClaude Sonnet 4.6(88.5ポイント)がプログラミング次元で最高のパフォーマンスを示し、かつ相対的に安定している。
2. 知識集約型アプリケーション:Claude Opus 4.6(91.0ポイント)またはClaude Sonnet 4.6(89.8ポイント)の使用を推奨。これらは知識作業次元でリードを保ち、今週の退化も最小だった。
3. 総合的コストパフォーマンス:DeepSeek V3は依然として良い選択だが、今後のアップデートを注意深く監視し、さらなる性能低下が本番環境に影響しないよう注意が必要。
4. 落とし穴回避の注意:当面、本番環境でのGPT-o3とQwen Maxの使用は推奨しない。これらの大幅な性能低下はユーザーエクスペリエンスの問題を引き起こす可能性がある。
今週の評価結果は我々に警鐘を鳴らしている:AIモデルの性能は単調増加ではなく、定期的な評価と動的な選定がアプリケーション品質を保証する必要な手段である。
データソース:YZ Index | Run #20 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接