AI推理能力に関するニュース

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。

同一のエンジニアリング判断問題を11のAIモデルに解かせたところ、豆包Proが100点満点を獲得した一方、ClaudeやGPT-4oを含む8つのモデルが0点という結果になり、実務的な推理能力における大きな差が明らかになった。

Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。

OpenAIが最近発表したo1-previewモデルが国際数学オリンピック（IMO）予選問題で83%という驚異的な得点を獲得し、人間の専門家を大幅に上回った。この成果はXプラットフォームで50万回以上の反響を呼び、AIの複雑な推論タスクにお