Google DeepMindは2026年6月11日にDiffusionGemmaモデルを発表した。総パラメータ数は260億で、Gemmaオープンウェイトファミリーの新メンバーとなる。このモデルは主流の自己回帰型生成方式を採用せず、画像拡散モデルの考え方を応用し、まずプレースホルダーでテキストを生成し、その後複数回の修正を経て最終結果を得る方式をとっている。
技術原理の概要
従来のチャットボットはトークンを順番に一つずつ予測し、ユーザーには文字が徐々に表示される。DiffusionGemmaは最大256トークンを一度に並列処理した後、修正を行う。この手法はハードウェアの演算能力が十分な場合に生成速度を大幅に向上させることができる。公式データによると、NVIDIA H100 1枚で毎秒1000トークン超、GeForce RTX 5090で毎秒700トークン超を達成し、同種の自己回帰モデルと比較して約4倍高速となっている。
モデルは混合エキスパートアーキテクチャを採用しており、1回の推論で活性化されるパラメータは約38億にとどまる。これにより、VRAMが18GBクラスのGPUでの動作が可能となり、ローカル環境への導入ハードルが下がっている。マルチモーダル入力とテキスト出力に対応しており、ローカル展開可能なモデルで開発者エコシステムを獲得するというGoogleの戦略を踏襲している。
実際の活用シナリオ
ローカルAIユーザーにとっては、プライバシーへの配慮が必要な場面やネットワークが不安定な状況において、手元のGPUによるテキスト生成により多く依存できることを意味する。GoogleはDiffusionGemmaをGemmaオープンウェイト体系に組み込んでおり、開発者はウェイトを直接ダウンロードして実験を行うことができる。
Googleによると、専用GPUを使用した低レイテンシのローカル推論シナリオにおいて、テキスト生成速度は従来の自己回帰モデルと比較して最大約4倍高速になるとしている。
技術的影響の分析
拡散型テキストモデルはこれまで主流にはなっていなかったが、主な理由として自然言語では文法の順序や事実的制約に対するより高い要求があることが挙げられる。DiffusionGemmaは、拡散方式がオープンウェイトのテキストモデルにおいて明確な速度優位性を実現できることを証明した。
業界ではモバイル端末やマルチモーダルアプリケーションへの潜在的な影響が注目されている。パラメータの活性化比率が低いという特性は、コンシューマー向けハードウェアでの動作に有利であり、ローカルAIアプリケーションのクラウドからエッジへの移行を後押しする可能性がある。
- 速度優位性が明確:並列生成メカニズムにより逐次依存性が軽減される。
- 導入ハードルの低下:38億の活性化パラメータはミドルレンジGPUに適している。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接