模型横评に関するAIニュース | Winzheng AI ニュース

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

WDCD v3.1の契約遵守テストにおいて、リソース制限シナリオでgpt-5.5が1.55/4と最低スコアを記録し、全5シナリオ中の最大スコア差は2.45点に達した。モデルの契約遵守能力はシナリオ固有の特性であり、単一シナリオの成績から全体

WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回

バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。

8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。

データベース誤削除復旧に関するエンジニアリング判断力テストで、8つの主要AIモデルが明確に二分化された回答を示し、実践的な問題解決能力の差が浮き彫りになった。

8つの主要AIモデルに対してタイムゾーン変換問題を出題した結果、5モデルが完全正答、3モデルが計算ミスを犯し、基礎的な推理能力における顕著な差が明らかになった。

8つの主要AIモデルが単純な論理推論問題で正答率50%という結果を示し、AI分野における論理推論能力の著しい格差を露呈した。