11モデルが同じ責任転嫁問題に回答:8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化した:8モデルがA>B>D>Cを出力して60点を獲得し、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な位置のみにある。

正しい順序の論理的根拠

問題は4種類の回答を最良から最悪に並べることを求めている。A選択肢は「要件レビュー時に技術的複雑度の評価が不十分だった」と明確に認め、さらに具体的な改善策を補足しており、完全な責任受容かつ検証可能な回答に属する。Bは問題を「開発チームが技術的難題を発見した」ことに帰因させ、依然として焦点を技術自体に置いているが、レビュー段階の見落としを直接認めていない。Dは遅延の原因を「もともと時間が厳しかった」ことに押し付け、自身のレビュー責任を回避しており、典型的な外部帰因に属する。Cは責任を直接「顧客が途中で要件を変更した」ことに転嫁しており、証拠の裏付けがないまま責任を押し付けているため、最下位の順序となる。

したがって正しい順序はA>B>D>Cであるべきだ。CをDの前に置くことは、モデルが「顧客に責任転嫁する」ことを「時間が厳しいと不満を述べる」ことよりも受け入れられると判断したことを意味し、これは問題が提示した採点基準と完全に矛盾する。

得点モデルと0点モデルの回答比較

豆包Pro、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3の8モデルは一致してA>B>D>Cを選択した。これらはDとCの順序について正しい判断を下した。

一方、Qwen3 Max、文心一言4.5、GPT-5.5の3モデルはCをDの前に置き、A>B>C>Dという順序を形成した。これらは「責任を顧客に押し付ける」ことと「時間不足を不満として述べる」ことの間で、前者を相対的により良い回答として選択した。

CをDの前に置くことは、「証拠なしに顧客に責任転嫁する」ことが「時間的プレッシャーに責任を押し付ける」よりも受け入れられると暗に認めることに等しく、これは工学判断の基本的な材料制約要件と直接衝突する。

execution次元での実際のパフォーマンス

execution次元はモデルが与えられたルールに厳格に従って順序付けタスクを実行できるかどうかに着目する。8つの60点モデルは「最良から最悪へ」という指示を厳格に遵守し、Aの後にB、D、Cの逓減度を順次区別した。3つの0点モデルも順序を出力したが、CとDの相対的な位置が逆転しており、ルール実行の最終段階で偏差が生じたことを示している。

grounding次元での材料使用の差異

grounding次元はモデルが判断を問題が提供した4つの原文にしっかりと固定しているかを測る。正しいモデルはAの「技術事前レビュー段階を追加した」を加点要素とし、Cの「顧客が途中で要件を変更した」を証拠なしの責任転嫁として減点した。0点モデルはCとDの間でCを受け入れる傾向が強く、問題における「証拠がない」という重要な材料の制約力に対する認識が不足していることを示している。

工学判断(サイドランキング、AI支援評価)の観察

工学判断のサイドランキングは、ほとんどのモデルがAを最良の選択肢と認識できるが、少数のモデルが後続の順序付けで「顧客への責任転嫁」と「時間への不満」を混同していることを示している。これは、一部のモデルが責任帰属の優先順位判断において依然として系統的な偏差が存在することを示している。

結果から見ると、executionとgroundingの2つのメインランキング次元はすでに明確な優劣を区別するのに十分である。8モデルが両次元で高い一貫性を示し、3モデルが両次元で同時に失点した。

今回のテストは再び実証した:問題が「最良から最悪へ順序付ける」ことを明確に要求した場合、モデルの出力差異は主に否定的選択肢の相対的順序付けに集中し、肯定的選択肢の識別ではないことを。

今後、同種の問題を複数回繰り返しテストし、同一モデルのDとCの順序の変動幅を観察すれば、そのgrounding次元の真の安定性をより明確に反映できるだろう。


データソース:YZ Index | Run #154 | 元データを表示