DeepSeek V3の安定性が21.4ポイント急落:出力の一貫性危機を深く分析
DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。
DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。
豆包Proは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫性を維持
今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。
Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。
「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。
豆包 Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析します。
Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果
今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。
バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。
8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。
データベース誤削除復旧に関するエンジニアリング判断力テストで、8つの主要AIモデルが明確に二分化された回答を示し、実践的な問題解決能力の差が浮き彫りになった。
8つの主要AIモデルに対してタイムゾーン変換問題を出題した結果、5モデルが完全正答、3モデルが計算ミスを犯し、基礎的な推理能力における顕著な差が明らかになった。
8つの主要AIモデルが単純な論理推論問題で正答率50%という結果を示し、AI分野における論理推論能力の著しい格差を露呈した。
今週(2026-W12)のYZ Index評価では、主要8モデル中6モデルで知識作業能力が低下し、GPT-o3は12.1ポイントの大幅下落を記録した。一方、Claude Sonnet 4.6は唯一のプラス成長を達成した。
今週GPT-o3の知識作業スコアが82.4点から70.3点へと14.7%急落し、特に論理推論とタスクで顕著な性能低下が見られた。
GPT-o3の知識作業能力が82.4点から70.3点に急落し、特に論理推論と言語理解能力に深刻な劣化が見られ、モデルの安定性に対する懸念が高まっている。