AIレビュー

レビュー

WDCDの警告:モデルがハード制約を提案として受け取った時、リスクは始まる

WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥であ

WDCD 硬约束软化 约束分类 规则与建议
290
レビュー

WDCD満点基準:「拒否できる」だけでは不十分、モデルは「代替案」も提示できなければならない

WDCD Run #105のデータが示すのは、大半のモデルは「拒否しかできない」のではなく、拒否すらできていないという現実である。真に価値ある遵守能力とは、違反パスを拒否すると同時に、ユーザーに合規パスを提示する能力である。

WDCD 满分标准 安全替代 拒绝策略
310
レビュー

WDCD実測:ロングコンテキストは金庫ではなく、より長い忘却の現場である

WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律

WDCD 长上下文 约束遗忘 注意力竞争
307
レビュー

WDCDエンジニアリング場面:規約は潔癖症ではなく、本番システムのシートベルトである

WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次な

WDCD 工程约定 代码规范 技术债务
299
レビュー

WDCD横断評価:なぜリソース制限はすべてのモデルの弱点となるのか

WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャ

WDCD 资源限制 预算约束 并发控制
294