11のAIに同じ問題を解かせた結果:豆包100点、8モデルが0点

同じエンジニアリング判断問題を11のAIモデルに投げかけた結果、私は驚愕した:豆包Proが100点満点を獲得した一方で、ClaudeやGPT-4oを含む8つのモデルがなんと全て0点だった。これは数学問題を間違えたのではなく、彼らが問題の本質を全く理解していなかったのだ。

一つの問題が露呈した天と地の差

問題は非常にシンプルだ:あなたが開発した一斉送信機能に問題が発生したが、個別のアカウントへの送信は正常に動作している。最初に何をすべきか?

これは全てのバックエンドエンジニアが遭遇する典型的なシナリオだ——バッチ処理は失敗するが個別処理は正常。重要な情報は既に明確だ:個別送信は正常、一斉送信は異常。これは問題がバッチ処理特有のロジックにあることを意味している。

豆包Proの回答は教科書レベルと言える:

「最初のステップは、ユーザーの今回の一斉送信操作のコンテキスト情報を収集することです:選択されたアカウントの組み合わせ、一斉送信の内容、障害の具体的な表現(全量/部分的な失敗、エラー表示の有無)、操作時刻を含め、同時に対応する時間帯のバックエンド操作ログを取得し、一斉送信特有のバッチスケジューリング、複数アカウント検証、コンテンツのバッチ処理ロジックの異常を優先的に調査します。なぜなら、個別アカウントへの送信が正常であることで、個々のアカウントの送信インターフェースや権限関連の問題は既に排除されているからです。」

豆包の思考プロセスに注目してほしい:まず具体的な操作のコンテキストを収集し、漠然と「ログを見る」のではない;一斉送信特有のロジックを調査することを明確に指摘している。なぜなら個別送信で基本機能に問題がないことは既に検証済みだからだ。これこそが真のエンジニアリング思考だ。

8つのモデルの集団的な失敗

0点を取った8つのモデルが何をしているか見てみよう:

  • 文心一言:バッチ送信部分のコードロジックを確認する
  • Claude Sonnet:私はまずユーザーが遭遇した問題を再現します
  • GPT-4o:ログとエラーレポートを確認する
  • Qwen Max:ユーザーの具体的なフィードバックを収集する

これらの回答は一見合理的に見えるが、実際には正しい無意味な話だ。「ログを見る」、「問題を再現する」、「コードを確認する」——これはエンジニアが持つべき最初の反応ではないのか?重要なのは、どのログを見るのか?どのシナリオを再現するのか?どの部分のコードを確認するのか?

さらに致命的なのは、これらのモデルが問題文の重要な情報——個別送信は正常——を完全に無視していることだ。個別送信が正常なのに、なぜ漠然と「問題を再現する」必要があるのか?これは医者が患者の左足だけが痛いと知っているのに、全身検査をするようなものだ。

20点と60点のモデルは何を見たのか

興味深いことに、DeepSeek V3、DeepSeek R1、Claude Opusは20点を獲得した。彼らは少なくとも「並行処理」というキーワードに言及したからだ。Gemini 2.5 Proはさらに進んで60点を獲得した。「そのユーザーの失敗した一斉送信タスク」のログを見ることを明確に述べ、漠然とログを見るのではないからだ。

しかし、60点のGeminiでさえ、豆包のような体系的な思考はできていない:操作コンテキストを収集し、バッチ処理特有のロジックを的を絞って調査する。この構造化された問題分解能力こそが、優秀なエンジニアと普通のプログラマーを区別する鍵なのだ。

なぜこの問題がこれほど重要なのか

これは単なる面接問題ではない。実際の業務では、80%のバグ調査が同様のパターンに従う:既知の情報を使って問題の範囲を絞り込み、最も可能性の高い障害点を見つける。針を干し草の山から探すのではない。

豆包Proが示した能力は、まさに私たちがAIに最も必要としているものだ:機械的に指示を実行するのではなく、問題のコンテキストを真に理解し、合理的な推論と判断を行うこと

今回のテストは残酷な現実を露呈した:大規模言語モデルは知識的な質問への回答がますます強くなっているが、エンジニアリング判断力が必要な場面では、ほとんどのモデルがまだ「プロフェッショナルに見える」レベルに留まっている。彼らは正しい専門用語を使えるが、本当に有用なアドバイスは提供できない。

大規模言語モデルの次の戦場

GPT-4からClaude 3.5まで、文心4.0から通義千問まで、これらのトップモデルがこの問題で集団的に失敗したことは何を意味するのか?

言語能力の向上は既に天井に近づいており、真の差別化は推論と判断力に現れるだろう。AIを経験豊富なエンジニアのように思考させることができる者が、次の段階の競争に勝利するだろう。

豆包Proの今回のパフォーマンスは、中国産大規模言語モデルが異なる道を歩んでいることを示唆しているかもしれない:パラメータ規模の軍拡競争を追求するのではなく、特定分野の専門能力を深く耕すこと。他のモデルがまだ誰がより華麗な作文を書けるかを競っている時、豆包は既に実際の問題をどう解決するかを考え始めている。

今後1年間で、より多くの類似した「専門能力テスト」が登場すると予測する。そして、暗記しかできないAIは、すぐに市場から淘汰されるだろう。結局のところ、私たちが必要としているのは美辞麗句を並べるアシスタントではなく、本当に問題を解決できるパートナーなのだ。


データソース:YZ Index | Run #33 | 生データを見る