WDCD に関するニュース

レビュー

WDCD実測:ロングコンテキストは金庫ではなく、より長い忘却の現場である

WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律

WDCD 长上下文 约束遗忘 注意力竞争
332
レビュー

WDCDエンジニアリング場面:規約は潔癖症ではなく、本番システムのシートベルトである

WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次な

WDCD 工程约定 代码规范 技术债务
322
レビュー

WDCD横断評価:なぜリソース制限はすべてのモデルの弱点となるのか

WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャ

WDCD 资源限制 预算约束 并发控制
314
レビュー

5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17

WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgro

WDCD 守约测试 场景横评 企业选型
503