DoubaoPro満点問題でゼロ点：AIが実際のセキュリティインシデントで集団沈黙する理由

2026年3月21日 619 約6分 Winzheng Index

豆包Pro 工程判断力安全事件响应 AI测评技术决策

本来満点だったセキュリティ対応問題で、豆包Proは今回白紙回答を提出した。さらに奇妙なのは、モデルが出した回答は一見専門的に見えるが、実はAIが重要な意思決定の瞬間に致命的な欠陥を露呈していることだ。

100点から0点へ：教科書的な判断ミス

まず問題の背景を見てみよう：あなたはECサイト企業の運用エンジニアで、午前3時にアラートを受信、サーバーのCPUが異常に高騰し、同時に不明なプロセスが大量のリソースを占有していることを発見した。これは典型的なセキュリティインシデントのシナリオで、AIが正しい緊急対応の意思決定ができるかを試すものだ。

豆包Proの回答は一見すると非常に専門的だ：「まず異常プロセスを勝手に終了したり、サーバーを再起動したりしてはならない。侵入現場を破壊したり、コアビジネスを中断したりすることを避けるため、最優先で読み取り専用モードでプロセスリスト、ネットワーク接続、システムログ、異常プロセスのメモリイメージなど完全な現場証拠を収集・保存する......」

しかし、なぜこの回答がゼロ点と判定されたのか？それは致命的な原則上のエラーを犯したからだ。

現場保護VS被害拡大防止：AIは間違った選択をした

実際のセキュリティインシデントには、鉄則がある：被害拡大防止は常に証拠収集より優先される。サーバーが既に侵入され、異常プロセスがデータを窃取したり、バックドアを仕込んだり、他のシステムへの攻撃の踏み台として使用されている可能性がある時、一秒の遅れも取り返しのつかない損失を招く可能性がある。

豆包Proの回答はまさにこの原則に反している。「現場保護」を第一に置き、「異常プロセスを勝手に終了してはならない」と提案し、さらに「読み取り専用モードで証拠を収集」するよう勧めている。このような学術的な思考は実際の場面では破滅的だ。

あるベテランセキュリティ専門家の評価：「もし私のチームメンバーが侵入を発見した時に現場保護するかどうかで迷っているなら、すぐに一線業務から外す。これはCSIの犯罪現場ではなく、進行中のサイバー攻撃なのだ。」

AIの「知識の呪い」：理論的には正しいが実態から乖離

豆包Proの回答ロジックを分析すると、大量のセキュリティ対応の理論知識を習得していることがわかる：証拠保全、プロセス分析、ログ収集、メモリイメージ......これらは確かにセキュリティインシデント処理の標準的な手順だ。しかし問題は、AIがこれらの手順の優先順位と適用場面を理解していないことだ。

より深い問題は、AIが訓練時に「理想化された」セキュリティ対応手順を過度に学習し、現実世界の複雑性への理解が不足している可能性があることだ：

午前3時のアラートは何を意味するか？攻撃者がこの時間を選んだのは計画的だ
ECサイト企業のコア資産は何か？ユーザーデータと決済情報の漏洩は許容できない
不明なプロセスが既に実行中ということは何を意味するか？防御線は既に突破され、今は損害制御の段階だ

豆包Proだけではない：AI意思決定の体系的欠陥

この事故は現在のAIが重要な意思決定場面で抱える普遍的な問題を映し出している。最新の評価データによると、豆包Proは他の側面では進歩している：プログラミング能力は2ポイント向上、ナレッジワーク能力は7.9ポイントも上昇したが、まさに臨機応変な判断が必要な場面で失敗した。

これは個別の事例ではない。我々が観察している傾向は：AIは標準的な答えがあるタスク（プログラミング、知識問答）ではますます強くなっているが、利害得失を考慮し、迅速な意思決定が必要な場面では依然として脆弱だ。この「高得点低能力」現象は業界全体が警戒すべきものだ。

エンジニアリング判断力：AIの最後の弱点？

豆包Proの今回の失敗は重要な示唆を与えている：エンジニアリング判断力はAIツールとAIアシスタントを分ける分水嶺かもしれない。適格なAIアシスタントは知識を持つだけでなく、プレッシャー下で正しい意思決定を行う能力が必要だ。

評価データを見ると、豆包Proの安定性スコアはわずか48.2で、すべての次元で最下位だ。これはモデルが非標準化、高圧力の場面に直面した時、パフォーマンスの変動が極めて大きいことを示している。今日はセキュリティインシデント対応、明日は本番障害処理、明後日はビジネス上の意思決定かもしれない——これらの場面で必要なのは暗記した知識ではなく、生きた判断力だ。

懸念されるのは、AIが「受験勉強」の道筋で最適化を続けるなら、「高得点低能力」なモデルの集団を得る可能性があることだ：標準的な質問には完璧に答えられるが、現実世界の複雑な意思決定では頻繁に失敗する。

AIが真の試練の時を迎えた時、システムを守るのではなく証拠を守ることを選んだ——このエラーは、我々が想像するよりも普遍的で、より危険かもしれない。

データソース：YZ Index | Run #33 | 元データを見る