レビュー 11個のAIに同じデバッグ問題を解かせたら:5つが即座に0点、致命的な差はどこに? 実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。 豆包Pro Claude 工程调试 模型评测 2026年3月21日 402