11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個のトップレベルAIモデルに小学生でも解けるタイムゾーン計算問題を解かせた結果、目を疑うような結果になった:半数以上のモデルが最も基本的な時間計算すら間違えたのだ。さらに皮肉なのは、数十億ドルの評価額を誇るこれらの「インテリジェントアシスタント」が、誰一人として3月15日がアメリカ夏時間の重要な節目であることに気づかなかったことだ。

AIの真の実力を暴く「魔鏡」となった一問

問題は呆れるほど簡単だ:北京時間3月15日土曜日午後3時を与えて、ニューヨーク、ロンドン、東京、シドニーの現地時間と曜日を計算せよ。このような問題は、タイムゾーンの知識を学んだ中学生なら2分以内に答えられる。

しかし、11個の主流AIモデルのパフォーマンスは、彼らに本当の「知能」があるのか疑わせるものだった:

  • 6個のモデルが完全に間違えた(0点):豆包 Pro、DeepSeek R1、Grok 3、Gemini 2.5 Pro、Qwen Max
  • 5個のモデルが正解した(100点):DeepSeek V3、文心一言4.0、Claude Sonnet、GPT-4o、Claude Opus

最も離れ業だったのはアリババのQwen Maxで、ニューヨーク時間を「金曜日22:00」と直接算出した——時間が間違っているだけでなく、曜日まで逆になっていた。このような初歩的なミスは、最も基本的な数学的論理すら成り立たない。

同門モデル、天と地の差

さらに奇妙なのは、同じ会社の異なるモデルが正反対のパフォーマンスを示したことだ。DeepSeek V3は完璧に正解したが、その「推論強化版」DeepSeek R1は全問不正解だった。理論的には、R1はV3のアップグレード版で、推論能力がより強いはずなのに、このような簡単な問題でつまずいた。

これは残酷な真実を暴露している:いわゆる「推論モデル」は特定のベンチマークに過学習しているだけで、実際の推論能力は疑わしい。わずかに変形した実際の問題に直面すると、これらの派手な「強化版」は基本版よりも信頼性が低いことが判明した。

全モデルに共通する盲点:夏時間

さらに考えさせられるのは、3月15日がちょうどアメリカ夏時間移行期(毎年3月の第2日曜日)にあたることに、どのモデルも言及しなかったことだ。2025年の夏時間は3月9日から始まるため、問題文の3月15日には、アメリカはすでに夏時間に入っており、ニューヨークはUTC-5ではなくUTC-4であるべきだ。

これはすべてのモデルが示したニューヨーク時間が間違っていることを意味する——正解は午前2時ではなく3時であるべきだ。100点を取った「優等生」たちも、実は問題文で与えられた誤ったタイムゾーンで機械的に計算しただけで、真の時間常識を全く持っていなかった。

「AIが『3月のニューヨークは夏時間』という基本常識すら知らないなら、なぜ私たちはより複雑な現実の問題を処理できると信じるべきなのか?」——匿名を希望するAI研究者の言葉

技術への盲信の代償

このテストが明らかにした問題は、表面的に見えるよりもはるかに深刻だ。私たちがますます多くの意思決定権をAIに委ねる中、このような基本的な問題での集団的失敗は背筋が凍る思いだ:

  • GoogleのGemini 2.5 Proはマルチモーダル能力で世界一と謳っているが、文字問題すら解けない
  • マスクが推すGrok 3は「リアルタイムインターネット接続」能力が卓越していると主張するが、単純な時差計算ができない
  • 国産「自主制御可能」な豆包 Proは、このような簡単な推論で完敗した

これらのモデルがタイムゾーンすら計算できないなら、本当に医療診断、金融意思決定、自動運転を任せていいのだろうか?

最後に

この「タイムゾーン大試験」はAI業界全体に警鐘を鳴らした。パラメータ規模やベンチマークスコアを追求する軍拡競争の中で、私たちは最も基本的なもの——常識と論理を見落としているのかもしれない。

あるシリコンバレーの投資家の評価によれば:「あなたのAIアシスタントが『ニューヨークは北京より13時間遅れている』ことすら計算できないとき、いわゆるAGI(汎用人工知能)はまだ数光年先かもしれない。」

AIの能力の境界が無限に誇張される今日、小学校の算数問題一つで泡沫が露呈する。次回、誰かが「スーパーインテリジェンス」を売り込んでくるときは、まず聞いてみよう:今ニューヨークは何時?


データソース:YZ Index | Run #33 | 元データを見る