NVIDIA、PersonaPlex-7Bを発表:全二重音声AIが登場、「トランシーバー式」対話時代に終止符

【シリコンバレー2026年02月16日】 NVIDIA研究院が重大な爆弾を投下し、最新のAIモデル「PersonaPlex-7B」を正式にオープンソース公開した。これは単なる70億パラメータの言語モデルではなく、リアルタイム音声インタラクション専用に設計されたエンドツーエンドシステムである。その登場は、我々が慣れ親しんだ「あなたが一言、私が一言」という不器用なAI対話モードが歴史になることを意味するかもしれない。

コアブレークスルー:「割り込み」できるAI

PersonaPlex-7Bの最大の特徴は、その全二重(Full-Duplex)能力にある。

現在の多くの主流音声アシスタント(初期のSiriや一般的な音声文字変換システムなど)は「半二重」モードを採用している:ユーザーが話す -> AIが録音 -> 沈黙して処理 -> AIが回答。これはトランシーバーを使うようなもので、一方が話している時、もう一方は静かにしていなければならない。

PersonaPlex-7Bはこの制限を打破した。デュアルストリーム(Dual-stream)アーキテクチャを採用し、「聞く」と「話す」を同時に処理できる。これは以下を意味する:

  • いつでも割り込み可能: AIが長々と話している時、直接
    「ちょっと待って、それはどういう意味?」
    と割り込むことができ、まるで人間のようにすぐに止まって反応する。遅延はわずか約240ミリ秒。
  • 自然な相槌: あなたが話している時に
    「うん」
    「そう」
    「聞いてるよ」
    などの自然なフィードバック音(Backchanneling)を発することができ、対話が機械に向かって原稿を読んでいるようには感じられなくなる。

技術解説:継ぎ接ぎから統一へ

PersonaPlex以前は、音声ロボットを構築するには通常3つの独立したモデルを継ぎ接ぎする必要があった:

  • 自動音声認識(ASR):音を文字に変換。
  • 大規模言語モデル(LLM):思考して返答の文字を生成。
  • テキスト音声変換(TTS):返答の文字を読み上げる。

この「カスケード」方式は速度が遅いだけでなく、音声中の感情情報も失われる。PersonaPlex-7BMoshiアーキテクチャに基づき、1つのモデル内ですべての作業を直接完了する。Mimiコーデックを使用して音声をトークンに変換し、Helium言語モデルバックボーンと組み合わせて、「音声入力」から「音声出力」への直接マッピングを実現した。

NVIDIAのベンチマークテストによると、PersonaPlexの初回トークンまでの時間(Time to First Token)はわずか170ミリ秒で、人間の平均反応速度よりも速い。

千人千面:完全に制御可能な「キャラ設定」

モデル名の"Persona"(キャラ設定)は伊達ではない。NVIDIAは独自のハイブリッドプロンプト機構(Hybrid Prompting)を導入し、開発者が2つの次元でAIを正確に制御できるようにした:

  • 音声プロンプト(Voice Prompt): 数秒間の音声サンプルを提供すれば、AIはその音色と話し方をクローンできる。
  • テキストプロンプト(Text Prompt): 文字でキャラクターの背景、職業、性格を定義(例:
    「あなたは短気だが専門的な物理教師です」
    )。

この能力により、PersonaPlex-7BはゲームのNPC、仮想カスタマーサービス、パーソナライズされた伴侶アシスタントなどのシナリオに非常に適している。

オープンソースと未来

NVIDIAはすでにPersonaPlex-7Bのコード(MITライセンス)とモデルウェイト(NVIDIA Open Model License)をHugging FaceGitHubで公開している。

業界への影響:

OpenAIGPT-4oGoogleGemini Liveはすでに類似のリアルタイム音声能力を示しているが、それらはほとんどがクローズドソースで有料のサービスである。NVIDIAが7Bパラメータレベルで実現できるこのハイエンド体験を直接オープンソース化することで、開発者の敷居を大幅に下げ、一般ユーザーでも自分のコンシューマ向けグラフィックカード(RTX 4090など)でいつでも会話できる「ジャービス」を実行できるようになるだろう。

関連リンク:

Hugging Face モデルホームページ