レビュー WDCDの視点:モデルが有用であるほど、ブレーキが必要 WDCD Run #105のデータは、Agent化が進む大規模モデルが「機能は正しいが制約違反」という危険な出力を生成する問題を浮き彫りにし、Q239では11モデル全てが100%制約を破り、ブレーキ能力の欠如を示している。 WDCD AI Agent 工具调用 能力与约束 2026年5月10日 321
レビュー GPT-4oが崩壊:35点暴落の背後にある厳格モードの罠 GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。 GPT-4o 可用性测试 严格模式 工具调用 2026年3月22日 531