小学生でも答えられるタイムゾーンの問題が、Googleの最強モデルGemini 2.5 Proを完全に失敗させた。さらに恐ろしいのは、これが偶然のミスではなく、モデルが現実世界の基礎的な常識を処理する際の体系的な欠陥であることだ。
満点からゼロ点へ:一問が引き起こした信頼の危機
まず問題を見てみよう:北京時間の土曜日15:00の時、ニューヨーク、ロンドン、東京、シドニーはそれぞれ何時か?これは標準的なタイムゾーン推論問題で、モデルの現実世界の基礎知識に対する理解能力を試すものだ。
Gemini 2.5 Proの答えは衝撃的だった:ニューヨーク土曜日2:00、ロンドン土曜日7:00、東京土曜日16:00、シドニー土曜日18:00。東京がかろうじて近い値を示した以外、他の答えはすべて間違っている。最も離れているのはシドニーの時間だ——タイムゾーンの基本概念を持つ人なら誰でも、シドニーは北京の東にあり、時間は早くなるのではなく遅くなるはずだと知っている。
これは単純な計算ミスではない。北京からニューヨークは-13時間(夏時間では-12)、ロンドンは-8時間(夏時間では-7)、シドニーは+2時間(冬時間では+3)だ。Geminiの答えは、タイムゾーンの基本原理を完全に理解していないことを示している:地球は西から東に回転し、東の時間は常に西より早い。
評価暴落の背景:知識作業能力の体系的崩壊
この事故により、Gemini 2.5 Proの評価は全面的に下落した。知識作業の次元は4.6ポイント急落(80.9→76.3)し、最も下落幅が大きい指標となった。長文コンテキスト処理能力は4.3ポイント低下、安定性は3.5ポイント低下した。総合評価は76.6から73.7に下がり、激しい大規模言語モデル競争において、2.9ポイントの差はランキングの構図を変えるのに十分だ。
さらに警戒すべきは、タイムゾーン推論が「厳密問題」カテゴリーに属することだ——この種の問題には唯一の正解があり、主観的判断の余地はない。厳密問題で100点から0点に落ちたモデルが、より複雑な現実問題を処理する際の信頼性について、ユーザーにどう信じさせることができるだろうか?
評価データから見ると、これはGeminiが基礎常識で失敗した初めてのケースではない。安定性評価はわずか44.6(満点100)で、モデルが半数以上のシナリオで不安定なパフォーマンスを示すことを意味する。「Pro」を謳うモデルがタイムゾーンさえ正しく計算できない時、より複雑なビジネス上の意思決定を処理することを期待できるだろうか?
大規模言語モデルのアキレス腱:知能が常識と出会うとき
この事故は現在の大規模言語モデルの根本的な問題を露呈した:複雑な推論では優れたパフォーマンスを示すかもしれないが、最も基礎的な常識判断でつまずく。この「高IQ低常識」という特徴こそ、AIシステムの最も危険な部分だ。
想像してみてほしい。AIアシスタントが国際会議の時間調整でこのような間違いを犯したり、タイムゾーンをまたぐ金融取引で時間を間違えたりしたら、その結果は想像を絶するものになる。さらに皮肉なのは、Gemini 2.5 Proのプログラミング能力スコアが86.9と高いことだ。複雑なアルゴリズムを書けるのに、簡単なタイムゾーンは計算できない。
コストパフォーマンス指標は42.6から41.0に低下し、もともと高くなかったスコアがさらに下がり続けている。ユーザーが「Pro」バージョンにプレミアム料金を支払っているのに、基礎常識さえ保証できないサービスを受けるという落差は、ユーザーの支払い意欲に直接影響する。
現象を通して本質を見る:評価体系の価値
この事故は厳密問題評価の必要性も証明した。なぜこれらの「意地悪な」問題でAIをテストするのかと疑問を持つ人が多いが、答えは簡単だ:明確に定義された問題さえ解決できないモデルが、曖昧な現実のシナリオを処理することをどう信頼できるだろうか?
タイムゾーン推論は一見簡単に見えるが、実際にはモデルの現実世界に対する理解の深さを試している。地理知識(都市の位置)、物理的常識(地球の自転)、社会的知識(タイムゾーンの区分)の総合的な運用能力が必要だ。Geminiの失敗は、最先端のモデルでさえ、知識の統合と常識推論において巨大な欠陥があることを示している。
より深い問題は、このエラーがトレーニングデータの問題なのか、それともモデルアーキテクチャの限界なのかということだ。前者であれば、Googleのデータ品質管理に抜け穴があることを示している。後者であれば、現在のTransformerアーキテクチャが特定のタイプの推論を処理する際に根本的な欠陥があることを意味する。
最後に
最も賢いAIが時刻さえ正しく把握できない時、真の汎用人工知能への道のりは、想像以上に遠いのかもしれない。
Gemini 2.5 Proのこの失敗は業界全体に警鐘を鳴らした:パラメータ規模とベンチマークスコアを追求すると同時に、最も基礎的な常識能力を無視してはならない。タイムゾーンさえ正しく計算できないモデルは、他のタスクでどれだけ優れたパフォーマンスを示しても、ユーザーの信頼を勝ち取ることは難しい。これが、各大手企業が絶えず突破口を主張しているにもかかわらず、重要な業務でAIを全面的に使用する勇気のある企業が依然として非常に少ない理由かもしれない。
データソース:YZ Index | Run #33 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接