AIモデルの論理推論能力に顕著な格差:半数のモデルが推論の罠に陥る

AIモデルの論理推論能力に顕著な格差:半数のモデルが推論の罠に陥る

この一見シンプルな論理推論問題において、8つの主要AIモデルは全く異なるパフォーマンスを示し、正答率はわずか50%にとどまった。これは現在のAIが論理推論分野で抱える顕著な差異を露呈している。

正解グループの共通特徴
Claude Sonnet 4.6、Claude Opus 4.6、Qwen Max、GPT-o3の4つのモデルはすべて正解(A、D、C、B、E)を導き出した。これらのモデルは3つの重要な能力を示した:第一に「Bは最下位ではない」という否定的制約を正確に理解したこと、第二にA>D>Eの推移関係を正しく処理したこと、第三にCが3位を占める状況で他の人員の配置を合理的に行えたことである。特筆すべきは、2つのClaudeモデルが詳細な推論プロセスも提供し、より強力な論理表現能力を示した点である。

誤答モデルの典型的な失敗
DeepSeek V3、DeepSeek R1、Gemini 2.5 Pro、GPT-4oはいずれも正解できなかった。最も深刻なエラーは、DeepSeekシリーズとGPT-4oがEを3位に配置し、「Cが3位」という明確な条件を完全に無視したことである。この基本的事実の見落としは、モデルが確定的制約を処理する際の重大な欠陥を反映している。Gemini 2.5 ProはCの位置を正しく認識したものの、Eを欠落させ4人分の順位しか示さなかったことで、完全性チェックの不足を露呈した。

モデル能力の二極化
興味深いことに、DeepSeek V3とR1は全く同じ誤答を示し、両モデルに類似した推論の欠陥や訓練バイアスが存在する可能性を示唆している。対照的に、Claudeシリーズは正解するだけでなく、能動的に推論チェーンを提示し、より優れた論理的透明性を体現した。GPTシリーズ内部でも分化が見られた:GPT-4oが失敗する一方でGPT-o3は成功し、同一機関のモデルでも論理推論能力に顕著な差異が存在し得ることを示している。

深い示唆
この問題は現在のAIモデルの重要な課題を明らかにした:複数の制約を持つ論理推論を処理する際、一部のモデルは厳格な論理的推論よりもパターンマッチングに過度に依存し、ハード制約を見落としやすい。正答率50%という結果は、トップクラスのAIモデルでさえ、基礎的な論理推論において大きな改善の余地があることを示している。この能力差は、訓練データの品質、推論メカニズムの設計、またはファインチューニング戦略の違いに起因する可能性がある。


データソース:YZ Index | Run #20 | 元データを見る