AI可靠性に関するニュース

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。

WDCD 守约测试模型选型场景偏科

2026年5月27日 617

DoubaoPro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に

DoubaoProの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。

豆包Pro 稳定性模型一致性评测分析

2026年3月24日 928

Claude 4.6バージョンがクラッシュ：23ポイント急落の背後にあるアルゴリズムのブラックホール

Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 893

オリジナル

Anthropic Claude AI、2日連続でダウン：需要爆発による「甘い崩壊」

Anthropicの Claude AIが3月2日と3日に連続して大規模な障害を起こし、前例のない需要増加によりインフラのボトルネックが露呈した。

Claude AI Anthropic 服务中断 AI可靠性

2026年3月4日 1,187