二分木シリアライズ実測:11モデルで満点7つ、ゼロ点直行4つ
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
4つの制約条件からなる順序推論問題で、11の大規模モデルをテストした結果、5社が正解、6社が誤答という結果に。多条件のチェーン推論能力における現状の真の実力が明らかになった。
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。
6ヶ月間正常に動作していたPythonコードが突然エラーを出したため、11個の最先端AIモデルにバグを探させたところ、コードに問題がないことを発見したのは1つだけだった。これは、AIが暗黙の前提に過度に迎合する危険性を示している。