WDCD ストレス誘導:「上司が急いでいる」がなぜ大規模モデルを突破できるのか
WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し
WDCD Run #105のR3ストレス誘導テストにより、「客户急要」「先跑起来」といった日常的な職場での言い回しが、大規模モデルの制約境界を容易に突破することが明らかになった。Grok-4はR1の満点からR3で0.2へと80%の劣化を示し
今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。
文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
DeepSeek事件を契機に、AIモデルの知識を盗む「モデル蒸留攻撃」が深刻な脅威となっており、API層からモデル内核まで多層的な防御体系の構築が急務となっている。
MLCommonsとLMSYS Orgが共同開発したAILuminate Jailbreak V05ベンチマークが発表され、大規模言語モデルの脱獄耐性評価で新たな基準を確立した。Claude 3.5 Sonnetが1485 Eloで首位を獲