現象:AIが綴りを書けず、「Google」さえ正しく書けない
最近、複数のユーザーが、Googleの最新AIモデルが対話中に低レベルな綴りミスを犯していることを発見した。「Google」を「Googel」「Gogle」さらには「Goolge」と書いたのだ。さらに恥ずかしいことに、誰かが綴りを確認するよう求めると、AIは自信たっぷりに「綴りは正しい」と回答した。これは単独の事例ではない——同モデルは「strawberry」を綴る際に「r」が欠落し、「rhythm」を書く際には文字の位置が乱れた。TechCrunchのAmanda Silberlingはコメントを発表し、「Googleはまた自らに恥をかかせている」と述べた。
根本原因:tokenizationの盲点
なぜ基本的な綴りすら間違えるのか?元凶はAIがテキストを処理する方法、すなわち分かち書き(tokenization)にある。大規模言語モデルは直接アルファベットを理解しているわけではなく、単語をより小さなサブワード単位(token)に分解する。例えば「Google」は「Go」と「ogle」に分解される可能性があり、モデルが注目するのはこれらtoken間の確率関係であって、文字の順序ではない。綴りにわずかな変化が生じても、モデルは人間のように文字列を遡って確認することができない。
「言語モデルは本質的に確率的な統計エンジンであり、それが学習しているのは語ブロックの組み合わせパターンであって、本当の綴りルールではない。」——AI研究者Karen Haoこのメカニズムにより、モデルは珍しい単語や重複する文字を含む列を生成する際に極めて間違いやすくなる。
編集者注:単なる「恥」ではなく、信頼の危機
GoogleのAIの綴り問題は些細なことに見えるが、実際には現在の大規模言語モデルの深層的な限界を露呈している。企業向け製品(Google Search、Google Workspaceなど)にとって、ユーザーが期待するのは正確無誤なテキスト出力である。自社の名前さえ正しく書けないなら、AIが生成する医学的アドバイス、法的条項、金融レポートをどうやって信頼できるだろうか?
さらに考えるべきは、Googleには修正能力がないわけではない——2024年には綴り訂正モデルSpelling Correction Model(SCM)をリリースしたが、明らかにそれを最新の対話型AIには統合していない。これはGoogle社内の製品マトリックスの分断を反映している:研究部門と製品部門の間に溝があるのだ。
比較と反省:OpenAIやAnthropicはどう対応したか?
これに比べ、OpenAIのGPT-4oやAnthropicのClaude 3.5は綴りテストで明らかに優れたパフォーマンスを示した。これらは文字レベルのアテンション機構と事後検証プロセスを導入している——テキスト生成後に追加で綴りチェックを実行するのだ。しかし、これらのモデルでさえ、超長単語や言語横断的な綴りを処理する際には依然としてミスを犯す。本質的には、モデルが基盤となるtransformerアーキテクチャ内のtokenizationを改造しない限り、綴り問題を根絶することは困難である。
Googleの今回の「自らの欠点暴露」は、ある意味で契機となるかもしれない:業界に言語モデルの文字理解能力を再考させることだ。結局のところ、AGIという壮大な物語の下で、基本的な綴りすらできないようでは、「知能」の真価が疑われても仕方がない。
本記事はTechCrunchより編訳。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接