Thinking Machinesがリアルタイム対話AIを構築:聞きながら話す

AIとのチャットがなぜいつも遅延のあるピンポンのように感じられるのか、考えたことはあるだろうか?あなたが一言発すると、AIは考え込み、AIが返答すれば、あなたは静かに待つ。この「順番に発言する」パターンは、ChatGPT、Claude、Geminiなどの主流モデルの設計に深く刻み込まれている。しかし、Thinking Machinesという名のスタートアップ企業はこのすべてを覆そうとしている。彼らはあなたの話を聞きながら、同時に返答を組み立てるAIを作ろうとしているのだ。

「文字のやりとり」から「電話通話」へ

「これまで皆さんが使ったすべてのAIモデルは同じように動作しています:あなたが話せば、AIが聞き、AIが応答すれば、あなたが聞く。」Thinking Machinesの創業者兼CEOは最近の技術発表で説明した。「私たちの目標は、このパラダイムを根本から変え、AIとのやりとりを文字メッセージの羅列ではなく、電話通話のようなものにすることです。」

従来の大規模言語モデル(LLM)の推論プロセスは通常、ユーザーの入力を完全に受信してから生成を開始する——つまり「入力-処理-出力」の直列モードである。ストリーミング出力によってトークンを段階的に表示することは可能だが、モデルの「思考」は依然として全入力の処理完了後に集中している。Thinking Machinesは全二重(full-duplex)アーキテクチャの導入を試みている:モデルが入力を受信しながら同時に出力の生成を開始し、動的アテンション機構を通じて双方向のデータストリームを並列処理する。創業者の言葉を借りれば、「人間の会話では、私たちはしばしば相手が話し終わる前にすでに応答を組み立てているのと同じです。」

「私たちはより速いエコーマシンを作っているのではなく、真の対話パートナーを生み出しているのです。」——Thinking Machines技術ホワイトペーパー

業界背景:なぜこれが重要なのか

現在のAI音声アシスタント(Siri、Alexaなど)や音声モード(ChatGPT Voiceなど)は音声インタラクションを実現しているが、底層は依然として「すべて聞いてから応答する」というロジックである。この設計は、即時フィードバックが必要なシーン(緊急援助、リアルタイム翻訳、医療相談など)では不快な遅延を生じさせる。さらに、ユーザーは対話中にAIを「遮る」ことができない。なぜなら、モデルは現在の応答を完了してからでないと新しい入力を処理できないからだ——これは人間の会話の自然なリズムに完全に反している。

業界ではこの問題を緩和するためのいくつかの試みがすでに行われている:例えばストリーミング推論(streaming inference)によって最初のトークン生成時間を短縮したり、カスケードシステム(cascading systems)を使って部分入力を並列処理したりする。しかしThinking Machinesの野心は、モデルアーキテクチャのレベルで真の「聞きながら話す」を実現することにある。これには、計算リソースの配分、コンテキストの一貫性、そして入力ストリームがまだ終了していない時に生成された出力が正しいかどうかをどう扱うかなど、多くの課題を解決する必要がある。

編集者注:「同時性」の革命

もしThinking Machinesが成功すれば、これはAIインタラクション体験の質的変化となるだろう。あなたがAIに問題を説明している時、AIが最初の音節からすでにうなずいたり、ため息をついたり、短いフィードバックを返したりして、あなたが話し終わるのをぼんやり待つことがない——そんな状況を想像してみてほしい。これはAIをより「人間」らしく、機械らしくないものに見せるだろう。しかし技術的観点から見れば、入力と出力を同時に処理するということは、モデルが2つの動的コンテキストウィンドウを維持し、どの情報を生成に優先的に使うかをリアルタイムで決定する必要があることを意味する。これは単なるエンジニアリング最適化を遥かに超えるものだ。

Thinking Machinesのチームの経歴を見ると、Google Duplex(電話を通じてユーザーのレストラン予約を代行できるAI)の研究に参加した者や、Meta AIの対話研究チームの中核メンバーが含まれている。「私たちは音声インタラクションにおいて、1ミリ秒の遅延がいかに没入感を破壊するかを理解しています」とある研究者は語る。「全二重AIは、人間と機械の協働の境界を再定義するでしょう。」

もちろん、この道は依然として疑問に直面している:プライバシーと計算コストが二大の主要な障害だ。継続的な傾聴にはデバイスがアクティブな状態である必要があり、これはバッテリー寿命やクラウドの計算能力に圧力をかける。同時に、ユーザーが「常に聞いている」AIを受け入れるかどうかも、心理的な順応が必要となる。しかし、あらゆる破壊的技術と同様、先行者は常に最大のリスクを引き受けなければならない。

本記事はTechCrunchから編訳。