わずか6行のPythonクロージャ問題に対し、11個のモデルの回答はほぼ完全に一致した。10個のモデルが直接[2, 2, 2]を出力し、文心一言4.5のみフォーマット崩れが発生した。これはYZ Indexで最終的に全モデルが0点となった結果と強烈な対比を成している。
問題の核心と正解
コードはforループでlambda: iを3回連続で追加する。lambdaが捕捉するのは変数iそのものであり現在の値ではないため、ループ終了後のiの値は2となり、3回の呼び出しはいずれも2を返す。実際のPython実行結果はまさに[2, 2, 2]である。
モデル回答の実際の差異
- 豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3、GPT-5.5はいずれも厳密に1行で[2, 2, 2]と出力し、「実際の実行結果のみを出力する」という追加要件を満たしている。
- 文心一言4.5は「[2, 2 (または[2, 2, 2]) , 2]」と記述し、余計な説明文を含む上にフォーマットエラーも発生している。
内容の正確性で見れば、10個のモデルはループ変数の遅延バインディング機構を習得している。フォーマット遵守度で見ても、10個のモデルは「説明不要、コードブロック不要、余計な空行不要」という厳格な制約を満たしている。
なぜ指数が全て0点となったのか
YZ Index v6はコード実行軸において二重チェックを採用している。出力が正しいかどうかだけでなく、追加のフォーマット指示を100%遵守しているかも見る。文心一言はフォーマット失敗で直接0点。その他のモデルは内容は正しいものの、「1行ずつ回答する」というより細かい粒度の要求において完全達成と判定されなかった可能性があり、最終得点が0になった。
これは、現在の評価が「できるかどうか」から「指示通りに完全に実行できるかどうか」へと移行しており、モデルの指示追従能力により高い要求を課していることを示している。
一致性がもたらす示唆
11個のモデルが同じ古典的な落とし穴で同じ回答を出したことは、「lambdaによるループ変数の捕捉」が訓練データの中で高頻度パターンとなっており、モデルが安定した認識を形成していることを示す。今後、同種の問題は有効な識別器とはなり得ないだろう。
すべてのモデルが同じ正解を出すとき、真の評価ポイントはすでに知識から、フォーマットと指示への絶対的な服従へと移っている。
データソース:YZ Index | Run #154 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接