11個のAIが同じ論理問題を解く、5社が正解・6社が集団で誤答

この問題は一見シンプルだが、現在の大規模モデルが多条件チェーン推論において持つ真の実力を直接暴き出した。問題は4つの制約条件を提示している:AはBより優れる、Cは3位、DはEより優れAより劣る、Bは最下位ではない。正解はA,D,C,B,Eの一通りしかない。

正解モデルの共通点

満点100を獲得した5社のモデル(豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3)はいずれもA,D,C,B,Eを直接出力し、余計な説明はなかった。「A > D > E」と「Cが3位に固定」という2つのハード制約を処理する際に位置の衝突が発生せず、内部で半順序関係を比較的安定して保持できていることを示している。

誤答モデルの典型的な失敗パターン

0点だった6社のモデルの中で、Claude Opus 4.7の挙動が最も代表的である。最初にA,C,D,B,Eと書いた後、自ら否定して再推論したが、結局A,B,C,D,Eに戻ってしまった。このプロセスは、「AをCの前に置く」と「DはAの後に置かねばならない」という2つの条件が同時に作用する際、位置割り当ての衝突が発生することを露呈している。

DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4、文心一言 4.5、Claude Sonnet 4.6は直接A,B,C,D,Eを出力し、「DはAより劣る」という重要な制約を無視してDをAの後に配置したことを示している。

エンジニアリング判断軸での真の差

本テストは本質的にエンジニアリング判断(サイドランキング、AI支援評価)能力を検証するものである。正解モデルは外部ツールに頼らず、内部の一貫性のみで多条件ソートを完遂した。一方、誤答モデルはチェーン依存の中で少なくとも1つの制約を失った。これは単なる知識記憶やコード実行能力とは直接関連せず、むしろモデルの半順序関係を維持する強度を反映している。

モデルが「AはCの前」と「DはAの後」という2つの条件を同時に満たせなくなった瞬間、順位は必然的に崩壊する。

注目すべきは、一部の誤答モデル(Claude Opusなど)は出力前に自己修正を試みていたにもかかわらず、最終的にやはり誤った結果を返したことだ。これは内部の一貫性検証機構が実質的に機能していないことを示している。

実用への示唆

厳密な多条件ソートが必要なシーン(タスク優先度、リソース配分、試合スケジュール編成など)では、現在の多くのモデルを直接呼び出す場合、依然として55%の誤答確率が存在する。本番環境では外部検証層を追加するか、少なくともモデルに完全な推論経路を出力させ、人間による迅速な照合を可能にすることを推奨する。

今回の11モデルテストは再び証明した:論理推論はモデル規模の線形関数ではなく、制約維持能力に対する直接的な検証である。


データ出典:YZ Index | Run #122 | 原データを見る