越狱攻击に関するニュース

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。

MLC MLCommons 越狱攻击基准测试

2026年2月18日 681