AIモデルのタイムゾーン推理能力比較:細部が成敗を決める

この一見シンプルなタイムゾーン変換問題において、8つのトップAIモデルは明確な能力の分化を見せた。問題は、北京時間(UTC+8)3月15日土曜日15:00を起点として、4つの都市の現地時刻と曜日を計算するというものだ。

完全正解グループ(5モデル):Claude Sonnet 3.5、Gemini 2.0 Pro、Claude Opus、GPT-4o、GPT-o1-previewはすべて正確な答えを提示した。これらのモデルは時差(ニューヨーク-13時間、ロンドン-8時間、東京+1時間、シドニー+3時間)を正しく計算しただけでなく、より重要なのは日付の変化を正確に判断したことだ——ニューヨークは時差により深夜0時を越えるが、依然として3月15日土曜日のままだ。

計算ミスグループ(3モデル):

  • DeepSeek V3とR1:両モデルは完全に同じ誤った答えを出し、シドニー時間に誤差が生じた(正しい18:00ではなく18:00)。これは訓練データまたは推論ロジックにおける共通の欠陥を露呈している可能性がある。
  • Qwen Max:最も深刻な誤りを犯し、ニューヨークの曜日を誤って判断し(土曜日ではなく金曜日)、さらにシドニー時間も誤って計算した(18:00ではなく17:00)。基本的なタイムゾーン計算能力の不足を示している。

重要な洞察:

  1. 日付境界の処理:ニューヨーク時間は13時間前の午前2:00まで遡る必要があり、正解グループはすべて「3月15日土曜日」を正確に維持したが、Qwen Maxは誤って「金曜日」に変更した。
  2. モデルの同質化:DeepSeekの2つのバージョンが同じ誤った答えを出したことは、モデルアーキテクチャまたは訓練データの類似性を反映している可能性がある。
  3. Claudeシリーズの安定性:Claudeの2つのバージョン(SonnetとOpus)はともに完璧な成果を示し、Anthropicが基礎的な推論タスクにおいて堅実な訓練を行っていることを示している。

結論:この問題は単純なタイムゾーン計算のみを含むが、モデルの基礎的な推論能力を効果的に区別した。5つのモデルの満点パフォーマンスは、現在の主流大規模言語モデルがすでにこのようなタスクを安定的に処理できることを示している。一方、3つのモデルのミスは、基本的なタスクにおいてもモデル間に依然として顕著な差があることを私たちに思い出させる。特に注目すべきは、最新のDeepSeek V3がこのような基礎的なタスクでの表現が理想的でなかったことで、これは他の複雑なタスクでの優れたパフォーマンスとは対照的である。


データソース:YZ Index | Run #20 | 元データを見る