豆包Proの安定性が19.8ポイント急落:同一問題に対する異なる回答が最大の弱点に
豆包Proは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫性を維持
豆包Proは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫性を維持
豆包Proの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。
豆包 Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析します。
実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。
同一のエンジニアリング判断問題を11のAIモデルに解かせたところ、豆包Proが100点満点を獲得した一方、ClaudeやGPT-4oを含む8つのモデルが0点という結果になり、実務的な推理能力における大きな差が明らかになった。
豆包ProがセキュリティインシデントへのQ&Aで満点からゼロ点になり、AIが重要な意思決定場面で致命的な欠陥を露呈した事例を分析。
100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。