模型稳定性に関するニュース

レビュー

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。

DeepSeek V3 模型稳定性 AI评测性能波动

14時間前 77

レビュー

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 343

レビュー

GPT-o3がクラッシュ：30秒で5回のレート制限、長文評価で33.5点の暴落

GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 353

レビュー

GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 337

レビュー

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 445

レビュー

Gemini 2.5 Proの安定性が断崖絶壁のように急落した背後にある技術的隠れたリスク

今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。

Gemini 模型稳定性性能评测 AI安全

2026年3月22日 339

レビュー

文心一言4.0の安定性が22点急落、その背後にある技術的隠れたリスク

文心一言4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 257

レビュー

Claude 4.6が崩壊：満点の安全問題で全滅した背後にある致命的欠陥

Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 241

レビュー

GPT-o3が8.7ポイント急上昇の裏側：今週の11AIモデル評価で明らかになった3つの危険信号

100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 213

模型稳定性 に関するニュース

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

GPT-o3がクラッシュ：30秒で5回のレート制限、長文評価で33.5点の暴落

GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性が断崖絶壁のように急落した背後にある技術的隠れたリスク

文心一言4.0の安定性が22点急落、その背後にある技術的隠れたリスク

Claude 4.6が崩壊：満点の安全問題で全滅した背後にある致命的欠陥

GPT-o3が8.7ポイント急上昇の裏側：今週の11AIモデル評価で明らかになった3つの危険信号

模型稳定性に関するニュース