YZ Index 週報:タスク表現能力の集団的向上、Claudeシリーズが材料制約で独自の進展
今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。
今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。
今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。
バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。
8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。
データベース誤削除復旧に関するエンジニアリング判断力テストで、8つの主要AIモデルが明確に二分化された回答を示し、実践的な問題解決能力の差が浮き彫りになった。
8つの主要AIモデルに対してタイムゾーン変換問題を出題した結果、5モデルが完全正答、3モデルが計算ミスを犯し、基礎的な推理能力における顕著な差が明らかになった。
8つの主要AIモデルが単純な論理推論問題で正答率50%という結果を示し、AI分野における論理推論能力の著しい格差を露呈した。
今週(2026-W12)のYZ Index評価では、主要8モデル中6モデルで知識作業能力が低下し、GPT-o3は12.1ポイントの大幅下落を記録した。一方、Claude Sonnet 4.6は唯一のプラス成長を達成した。
今週GPT-o3の知識作業スコアが82.4点から70.3点へと14.7%急落し、特に論理推論とタスクで顕著な性能低下が見られた。
GPT-o3の知識作業能力が82.4点から70.3点に急落し、特に論理推論と言語理解能力に深刻な劣化が見られ、モデルの安定性に対する懸念が高まっている。