AIベンダーの真偽を見極めるのは困難:WDCD遵守テストで11大モデルのスコアが明らかに、データ漏洩の地雷を回避
WDCD(Won't Do, Can't Do Guardrail Test)遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選
WDCD(Won't Do, Can't Do Guardrail Test)遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選
最新のWinzheng AI評価データによると、ERNIE Bot 4.0はプログラミング能力が41.4点向上した一方で、安定性が22.1点急落し、百度が性能向上のために安定性を犠牲にしている可能性が明らかになった。
小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。