模型可靠性 に関するニュース

レビュー

AIベンダーの真偽を見極めるのは困難:WDCD遵守テストで11大モデルのスコアが明らかに、データ漏洩の地雷を回避

WDCD(Won't Do, Can't Do Guardrail Test)遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選

AI评估 WDCD测试 エンタープライズAI 数据安全
512
レビュー

Gemini 2.5 Proのタイムゾーン推論100点から0点へ:大規模言語モデルの常識の盲点はどれほど恐ろしいか

小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。

Gemini 2.5 Pro 严格题测试 时区推理 模型可靠性
452