11個のAIに同じデバッグ問題を解かせたら:5つが即座に0点、致命的な差はどこに?

コードに問題が発生したとき、AIアシスタントはどんなアドバイスをくれるだろうか?私は実際のデバッグシナリオで11の主流モデルをテストしたが、結果は驚くべきものだった:45%のモデルが及第点すら取れなかった。その中には新しくリリースされたDeepSeek V3も含まれている。

AIの真の実力を暴く問題

問題はシンプルだ:PHP GDライブラリを使って記事共有カードを生成し、コード変更後に記事Aは正常だが、記事BとCが空白画像になる。最初に何をすべきか?これはすべてのエンジニアが遭遇するシナリオだ——同じコードで異なる動作、典型的な境界条件問題である。

結果は?11のモデルが11種類の異なる答えを出し、しかもその差は驚くほど大きかった

5つの0点回答:AIの「正しい無駄話」

DeepSeek V3の回答はたった一文だった:「記事BとCの画像生成パスと権限設定を確認してください。」この答えは完全に的を外している——問題文では「同一の生成ロジック」と言っているのに、パス権限の問題なら記事Aはなぜ正常なのか?

DeepSeek R1、文心一言4.0、Qwen Maxの回答は判で押したように同じだった:入力パラメータを確認、特殊文字を確認、データの有効性を確認。これらはすべて正しい無駄話で、医者が患者に「体を検査する必要があります」と言うようなものだ。

「パラメータが異常でないか確認する」——こういった回答の問題は、どう確認するか何を確認するかなぜそう確認するかを教えてくれないことだ。

80点回答の共通特徴:具体的で実行可能

高得点の回答を見てみよう。豆包 Proは直接的に言った:「PHPエラーログを確認するか、一時的にエラー出力を有効にする。」Claude Sonnetは提案した:「記事A、B、Cのデータの違いを比較する。特にタイトルの長さ、特殊文字、エンコーディング形式を。」

これらの回答の共通点は何か?具体的、実行可能、優先順位がある。漠然とした話ではなく、明確な操作手順を示している。

さらに重要なのは、高得点モデルはすべて問題の本質を理解していることだ:Aが正常でB、Cが異常なら、差異は必ずデータにあるのであって、コードロジックではない。この推論能力こそ、優秀なエンジニアと普通のエンジニアを分ける鍵だ。

60点の中庸の道:深さが足りない

Gemini 2.5 Proはgit diffを確認することを提案し、GPT-o3は変更されたコード部分を確認することを提案した。これらの答えは間違いではないが、効率が悪すぎる。実際の仕事では、具体的なエラーを先に見ずにコードを調べ始めたら、大量の時間を無駄にする可能性がある。

これは事件を解決する時、目撃者に聞けばいいのに、まず監視カメラの録画を調べることを選ぶようなものだ。方向性は間違っていないが、最適解ではない。

AIモデルの3つの致命的盲点

この問題を通じて、現在のAIモデルがエンジニアリング問題において持つ3つの致命的な盲点を発見した:

  • デバッグの直感が欠如:本物のエンジニアは「Aは正常、B、Cは異常」を見たら、最初の反応は差異を比較することであって、漠然と「パラメータを確認」することではない
  • 優先順位が分からない:ログ確認、データ比較、コードdiff確認、これらはすべて正しいが、優先順位は全く異なる
  • 回答が過度に安全:間違いを避けるため、多くのモデルは最も保守的で、最も正しいが最も役に立たない答えを選ぶ

これは何を意味するか?

このテスト結果は残酷な事実を認識させた:実際のエンジニアリング問題を処理する際、少なくとも半数のAIモデルは2年の経験を持つプログラマーにも及ばない

さらに皮肉なのは、ベンチマークで優れたパフォーマンスを示すモデル(例えばDeepSeek V3)が、このような実戦的な問題では逆にひどい結果を示したことだ。これは何を意味するか?私たちが現在AIを評価する方法が根本的に間違っている可能性があることを示している。

もちろん、良いニュースもある。豆包 Pro、Claude、Grokなどのモデルのパフォーマンスは、AIが確かに優れたデバッグアシスタントになれることを証明している——正しいモデルを選べば。

将来、実際のエンジニアリング問題に対して本当に価値のあるアドバイスを提供できるAIこそが、「インテリジェント」という名に値する。正しい無駄話しか言えないモデルは、ベンチマークで遊んでいればいい。


データソース:YZ Index | Run #33 | 生データを見る