レビュー R1で美しく答えR3で全面崩壊:11モデルの遵守減衰実測で判明した63%の崩壊率 WDCDの三段階減衰テストで、主要11モデルすべてがR3(第三ラウンド)で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。 WDCD 守约测试 模型衰减 Claude 3時間前 57