11個のAIが同じ論理問題に挑戦、3個が誤答し推論のブラックホールを露呈

2026年3月21日 433 約7分 Winzheng Index

DeepSeek Grok 逻辑推理模型评测认知盲区

DeepSeek V3がこの問題で出した答えを見た時、最初の反応はテストシステムにバグがあったのかと思った。これは「推論能力がGPT-4に匹敵する」と謳われているモデルだ。こんな基礎的な論理問題でつまずくはずがない。しかし何度も検証した結果、残酷な事実が目の前に突きつけられた：バグではない、本当に解けないのだ。

この問題はどれほど簡単か？5人の順位付けで、4つの制約条件が与えられており、中学教育を受けた人なら誰でも2分以内に答えを導き出せる。正解は：A、D、C、B、E。論理の連鎖は白湯のように明快だ：Cは3位で固定、A>BかつA>D>E、Bは最下位ではない、よってAが1位、Dが2位、Bが4位、Eが5位。

最も離谱な間違い：Grokは問題をアルファベット順と理解

Grok 3の答えは、わざと冗談を言っているのかと疑いたくなる：A、B、C、D、E。この答えの唯一の「論理」はアルファベット順に並べただけだ。イーロン・マスク傘下のxAIの最新作として、Grokのこのパフォーマンスは災害級と言える。問題文のすべての制約条件を完全に無視し、まるで「論理推論なんてどうでもいい、アルファベット順こそ正義」と言っているかのようだ。

これは恐ろしい問題を露呈している：Grokはこれが推論問題であることすら理解していない可能性がある。A、B、C、D、Eという5つの文字を見て、何らかの「ソートモード」が直接トリガーされ、最も手間のかからない答えを出力した。これがAIと呼べるなら、私の家のExcelも人工知能と呼ぶべきだろう。

DeepSeekの集団的失敗：強力なモデルがなぜ簡単な問題でつまずくのか

さらに理解に苦しむのはDeepSeek V3とR1のパフォーマンスだ。両者は同じ誤った答えを出した：A、D、E、C、B。どこが間違っているか？Eを3位に置き、「Cが3位」という最も明確な条件を完全に無視している。

DeepSeekのエラーパターンを詳しく分析すると、興味深い規則性が見つかった：A>D>Eの順序関係は正しく認識しているが、Cの固定位置を処理する際に「認知の断層」が生じている。このエラーパターンは現在のAIの普遍的な問題を露呈している：複数の制約条件を処理する際、モデルは「選択的盲目」に陥る可能性があり、推論の連鎖を優先して最も基本的なハード制約を忘れてしまう。

これは人間の「トンネルビジョン」現象を思い起こさせる——複雑な問題に過度に集中すると、かえって最も明白な事実を見落としてしまうことがある。AIモデルもこの「賢さが仇となる」特質を受け継いでいるようだ。

正解した8つのモデル：誰が本当に「思考」しているのか？

正解した8つのモデルの中で、最も優れたパフォーマンスを見せたのはClaude Sonnet 4.6とClaude Opus 4.6だ。正解を出しただけでなく、完全な推論プロセスも示した。特にClaudeシリーズは、「Bは必ず4位でなければならない」という重要な推論ステップを明確に指摘しており、これは他のモデルが明示的に説明していない点だ。

文心一言4.0、Gemini 2.5 Pro、GPT-4o、Qwen Maxはすべて正解を出したが、推論プロセスは相対的に簡単だった。豆包Proのパフォーマンスは平均的で、答えは正しいが思考プロセスを示さなかった。最新のGPT-o3（o1のバージョンと思われる）も正解したが、同様に言葉を惜しんでいる。

この分布から分かるのは、OpenAI系とAnthropic系のモデルは論理推論において確かに一枚上手であり、中国産モデルの中では文心一言と通義千問のパフォーマンスもかなり堅実だということだ。

この問題が露呈したAIの3つの弱点

第一に、制約充足能力の不均衡。「Cは3位」のような明確で単純な制約ほど、一部のモデルはかえって無視しやすい。これはモデルが訓練時に複雑な推論連鎖の学習を重視し、単純な事実への重みが不十分だったためかもしれない。

第二に、推論の脆弱性。この問題は5つの要素と4つの制約しかないのに、すでに27%のモデルが間違えている。プロジェクトスケジューリングやリソース配分など、数十の変数を含むより複雑な現実のシナリオに拡張すれば、AIの信頼性は大幅に低下するだろう。

第三に、エラーの予測不可能性。DeepSeek V3は多くの複雑なタスクで優れたパフォーマンスを示しているが、この簡単な問題でつまずいた。この「強弱の逆転」現象は、AIがどこで間違えるかをまだ正確に予測できないことを示しており、これは重要なビジネスアプリケーションにとって巨大なリスクだ。

AI応用への示唆

このテストはすべてのAIアプリケーション開発者に警鐘を鳴らしている：モデルが複雑なタスクで優れたパフォーマンスを示すからといって、簡単なタスクでも完璧だと仮定してはいけない。AIシステムを設計する際は、以下の点を考慮する必要がある：

1. 重要な意思決定結果についてはクロスバリデーションを行い、できれば複数のモデルを使用する
2. AIシステムに「サニティチェック」メカニズムを設計し、明らかな論理エラーを捕捉する
3. ハード制約を含むシナリオでは、純粋なAI推論ではなくルールエンジンの使用を検討する

より深い問題は、現在のAI訓練方法に根本的な欠陥がある可能性があることだ。膨大なパラメータと計算力の積み重ねは、モデルが論理規則を真に理解することを保証しない。今回のテストで3つのモデルが失敗したことは、大規模モデルの発展にパラダイムシフトが必要かもしれないことを示唆している——単純にパラメータ規模を追求することから、推論の信頼性と一貫性の向上へと転換する必要がある。

AIが5人の順位付けすら間違えるなら、自動運転、医療診断、金融意思決定を正しく処理できると信じる根拠はどこにあるのか？これは技術問題ではなく、信頼の問題だ。

データソース：YZ Index | Run #33 | 生データを見る