AI可靠性に関するニュース

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。

WDCD 守约测试模型选型场景偏科

2026年5月27日 617

AI信頼性マップ：ルールと環境

AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。

MLC AI可靠性 MLCommons AI风险管理

2026年4月25日 786

DoubaoPro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に

DoubaoProの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。

豆包Pro 稳定性模型一致性评测分析

2026年3月24日 928

Claude 4.6バージョンがクラッシュ：23ポイント急落の背後にあるアルゴリズムのブラックホール

Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 893