AI safety に関するAIニュース | Winzheng AI ニュース

指示の劣化を測定：3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下

大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが初回ラウンドで95.8%の制約遵守率を示