同じ問題をAI11体に解かせたら、7体が不合格:誰が賢いふりをしているのか?

あなたのウェブサイトがユーザーデータを漏洩していたら、まず会議を開くか、それともまずネットワークケーブルを抜くか?この一見簡単な選択問題で、7つのトップAIモデルがつまずいた。

私たちは実際のエンジニアリングシナリオの問題で11の主流AIモデルをテストした:「ユーザーがログイン後に他人の注文データを見ることができ、カスタマーサービスが再現可能であることを確認した場合、あなたの最初のステップは何をすべきか?」 結果は衝撃的だった——60%以上のモデルが「まず報告してから処理」を選び、即座に損失を止めることを選ばなかった。

国産AIの圧倒的勝利

最も意外だったのは、今回のテストで最も優れたパフォーマンスを示したのが国産モデル陣営だったことだ。豆包 Pro、DeepSeek V3、DeepSeek R1、Grok 3はすべて満点を獲得し、その回答は驚くほど一致していた:即座にオフライン化、システム隔離、漏洩の遮断。

「第一歩は、ユーザー認証と注文照会に関連する機能サービスを即座に一時的にオフラインにし、脆弱性がさらに悪用される経路を遮断する。」——豆包 Proの回答は教科書レベルと言える。

対照的に、Claude Sonnet、Gemini 2.5 Pro、Claude Opusなどの西洋のトップモデルのパフォーマンスは失望的だった。彼らは申し合わせたように「まず技術チームとセキュリティ責任者に報告」を選んだ。まるで実際のデータ漏洩に直面した時、プロセスが止血よりも重要であるかのようだ。

80点の中間派:理解はしているが完全ではない

GPT-4o、GPT-o3、Claude Sonnetは80点を獲得し、「システムの一時停止」に言及したが、「チームへの通知」を同等に重要な位置に置いていた。この「あれもこれも」という回答は、緊急事態における優先順位判断の曖昧さを露呈している。

実際のセキュリティインシデントでは、1秒ごとに新しいユーザーデータが漏洩する可能性がある。最初の5分間をメールで報告するのに費やすか、それとも最初の5秒でサービスを停止するのか?これは天秤にかける選択問題ではない。

0点回答の共通特徴

文心一言4.0、Gemini 2.5 Pro、Claude Opus、Qwen Maxはすべて0点で、その回答には3つの致命的な問題があった:

  • 優先順位の誤り:「通知」と「報告」を第一位に置く
  • 緊急性の欠如:「通知を確実に」「彼らに要求する」などの遅延的な表現を使用
  • 責任の転嫁:意思決定権を「技術チーム」や「セキュリティ責任者」に押し付ける

特にQwen Maxの回答は最も的外れだった:「技術チームに即座に通知し、このセキュリティホールを緊急に修正するよう要求する」——これは完全に本末転倒で、まず止血するか医者を探すか、これをAIが教える必要があるのか?

なぜ西洋AIは集団で「失敗」したのか?

この現象の背後には3つの深層的な理由があるかもしれない:

1. 訓練データの偏り:西洋AIは大企業の規範化されたプロセス文書により多く接している可能性があり、「コンプライアンス」を「緊急対応」より重視している。一方、国産AIの訓練データにはより多くの実戦事例が含まれている可能性がある。

2. 文化的差異:西洋企業文化は手続き的正義を強調し、中国のインターネット企業は迅速な対応をより重視する。この差異はすでにAIの「遺伝子」に深く刻まれているかもしれない。

3. 責任に対する理解:国産AIは「第一責任者」の概念をよりよく理解しているようだ——問題が発生したらまず問題を解決し、責任を負う人を探すのではない。

これは単なるテスト問題ではない

この問題の結果は危険な傾向を示している:AIがますます多くの重要な意思決定に関与するようになると、その判断の偏りは壊滅的な結果をもたらす可能性がある。

AI支援による意思決定に依存するセキュリティチームが、実際のデータ漏洩事件でこれらの0点回答の提案を採用した場合を想像してみてほしい。結果は想像を絶するものになるだろう。データが1分間余分に漏洩するごとに、数万人のユーザーのプライバシーが暴露され、数百万の罰金が科せられ、取り返しのつかない信用損失が生じる可能性がある。

さらに皮肉なことに、ベンチマークで最高のパフォーマンスを示し、最大のパラメータを持ち、最高の評価額を持つモデルが、基本的なエンジニアリング判断力を試すこの問題で全滅した。これは再び証明している:パラメータ数と知能は別物であり、暗記ができることと実務ができることはさらに別物である。

「火事が起きたらまず消火するか、それとも通報するか」で悩むようなら、AIに運命を託している企業は再考する必要があるかもしれない。結局のところ、重要な時に必要なのは、会議ができるコンサルタントではなく、ネットワークケーブルを抜くことができるエンジニアなのだ。


データソース:YZ Index | Run #33 | 生データを見る