レビュー MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築 MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。 MLC MLCommons 越狱攻击 基准测试 2026年2月18日 681