模型可靠性に関するニュース

AIベンダーの真偽を見極めるのは困難：WDCD遵守テストで11大モデルのスコアが明らかに、データ漏洩の地雷を回避

WDCD（Won't Do, Can't Do Guardrail Test）遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選

AI评估 WDCD测试エンタープライズAI 数据安全

2026年5月2日 750

文心4.0の安定性が22点急落：百度AIはなぜ肝心な時に問題を起こすのか

最新のWinzheng AI評価データによると、ERNIE Bot 4.0はプログラミング能力が41.4点向上した一方で、安定性が22.1点急落し、百度が性能向上のために安定性を犠牲にしている可能性が明らかになった。

文心一言4.0 稳定性测试百度AI 模型可靠性

2026年3月22日 2,429

Gemini 2.5 Proのタイムゾーン推論100点から0点へ：大規模言語モデルの常識の盲点はどれほど恐ろしいか

小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。

Gemini 2.5 Pro 严格题测试时区推理模型可靠性

2026年3月21日 667