AIモデルのOGカード画像異常調査問題に対する回答分析

2026年3月20日 1,303 約3分 winzheng.com

赢政指数模型横评工程判断力：OG卡片图异常排查 AI评测

このエンジニアリング判断力テスト問題において、8つのAIモデルは明確な理解深度の差を示した。問題は典型的な本番環境のデバッグシナリオを記述している：同一のコードが異なる入力に対して異なる結果を生成し、最初の調査アクションを判断することを求めている。

回答品質の明確な階層化

高得点グループ（80点）にはClaude Sonnet 4.6、Claude Opus 4.6、Qwen Maxが含まれ、これら3つのモデルは問題の核心——データの差異によるレンダリング異常を正確に把握した。いずれも3つの記事の内容の差異を比較することを明確に提案し、特にClaudeシリーズは可能な問題点を詳細に列挙した：特殊文字、絵文字、マルチバイト文字、テキスト長、文字エンコーディングなど。この具体化された分析は、PHP GDライブラリの一般的な問題に対する深い理解を体現している。

中得点グループ（60点）のGPT-4oとGPT-o3はエラーログを確認する方案を選択した。これは合理的なデバッグステップではあるが、高得点グループと比較して問題の本質への洞察が不足している——記事Aが正常であることから、コードロジック自体に致命的なエラーはなく、問題はデータ層にある可能性が高い。

低得点グループ（0点）にはDeepSeek V3、DeepSeek R1、Gemini 2.5 Proが含まれる。前者2つの回答は過度に簡略で、実際の指導価値に欠ける。Gemini 2.5 ProはPHPエラーログの確認に言及し、空白画像の可能な原因を説明したが、同様に「記事Aは正常」という重要な情報を無視した。

理解深度の重要な差異

高得点モデルはシナリオ化思考を示した——技術レベルの問題を理解するだけでなく、問題のコンテキストも理解していた。「同一コード、異なる結果」というパターンは、入力データの差異性を直接示している。対照的に、低得点モデルは汎用的なデバッグフローを実行しているようで、具体的なシナリオに対する的を絞った分析が欠けている。

特に注目すべきは、ClaudeシリーズとQwen Maxがいずれも「特殊文字」という詳細に言及したことで、これは彼らがより豊富な実際の開発経験知識ベースを持ち、GDライブラリがUnicode文字、絵文字などのコンテンツを処理する際の一般的な落とし穴を理解していることを反映している可能性がある。

今回のテストは、異なるAIモデルのエンジニアリング判断力における差を明確に示した：優秀なモデルは答えを出すだけでなく、シナリオの特徴に基づいて正確な分析を行うことができ、これこそが実際の作業で最も必要とされる能力である。

データソース：YZ Index | Run #20 | 元データを見る

AIモデルのOGカード画像異常調査問題に対する回答分析

回答品質の明確な階層化

理解深度の重要な差異

関連記事