工程调试に関するニュース

11個のAIに同じデバッグ問題を解かせたら：5つが即座に0点、致命的な差はどこに？

実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。