GoogleのGemma 4オープンソースモデルが投機的デコードを採用、速度が3倍に向上

編者注:速度と品質を両立させた希少なブレイクスルー

AI大規模モデル分野では、「より速い」ことはしばしば「より劣る」ことを意味します——モデルの圧縮、量子化、プルーニングなどの技術は、必ず一定の精度を犠牲にする代償を伴います。しかし、Googleが最新にオープンソース化したGemma 4モデルは、この鉄則を打破したように見えます。「投機的デコード(speculative decoding)」と呼ばれるアーキテクチャ革新により、出力品質を損なうことなく最大3倍の推論高速化を実現したのです。これは技術的奇跡なのか、それとも単なるマーケティング上の宣伝文句なのか?その背後にある原理を深く分析します。

投機的デコード:大規模モデルに「下書き」を学ばせる

従来の自己回帰型言語モデルは、一度に1つのトークンしか生成できず、前のトークンが完了するのを待ってから続行しなければならないため、長いシーケンス生成時のレイテンシが非常に高くなります。投機的デコードの核心的な理念は、軽量な「ドラフトモデル(draft model)」で候補シーケンスを高速に生成し、より強力な「メインモデル」が並列で検証・修正を行うというものです。検証プロセスでは複数のトークンを一度に処理できるため、全体のスループットが大幅に向上します。

従来、この手法は2つの大きな課題に直面していました。1つはドラフトモデルとメインモデル間の通信オーバーヘッド、もう1つは両者の分布が一致しない場合の検証効率の低さです。Googleの研究者たちは別のアプローチを採用し、ドラフトモデルとメインモデルを単一の疎なエキスパート混合(MoE)モデルへと統合しました。この統一アーキテクチャでは、一部のエキスパートが高速なドラフト生成を担当し、別のエキスパートが正確な検証を担当し、基礎となるパラメータと活性化値を共有することで、データ転送のボトルネックを解消しています。

「私たちは細粒度のパイプライン並列化戦略を設計し、ドラフト生成と検証が同一モデルの異なるステージで交互に実行できるようにし、追加のレイテンシをほぼゼロにしました。」——Google Gemmaチーム 技術ブログ

性能実測:3倍の高速化は誇張ではない

Ars Technicaの報道によると、GoogleはGemma 4に対して複数のベンチマークテストで評価を行いました。コード生成、テキスト要約、対話タスクにおいて、投機的デコードを採用したバージョンは通常の自己回帰生成と比べて完全に同一のBLEUおよびROUGEスコアを維持し、推論速度は2.5〜3.1倍向上しました。さらに驚くべきことに、トークン生成品質は人手による評価でも顕著な劣化は見られませんでした。

この成果の背後にある鍵の1つは「トークン受容率(token acceptance rate)」です。Gemma 4は共同訓練によりドラフトモデルとメインモデルの分布を高度に整合させており、典型的なシナリオではドラフトトークンがメインモデルに受け入れられる割合が90%を超え、これまでの手法の70%程度を大きく上回っています。

業界への影響:オープンソースエコシステムの新たな変数

Gemma 4のリリースは、オープンソース大規模モデルの競争が激化する時期と重なっています。MetaのLlama 3、Mistral AIのMixtral、そして国内の通義千問などのモデルは、いずれも異なる次元で性能向上を追求していますが、推論効率は常に展開コストの核心的なボトルネックでした。投機的デコードは決して新しい概念ではありません(以前のNVIDIAのMedusa、MicrosoftのLookahead Decodingなど)が、Googleはこれを MoEアーキテクチャと深く統合し、完全にオープンソース化したことで、実用化の敷居を下げました。

注目すべきは、Gemma 4がGemmaシリーズ一貫の寛容なライセンス(商業利用を許可)を採用していることです。これは、開発者がこれを製品レベルの推論サービスに直接利用したり、さらなる蒸留やファインチューニングを行ったりできることを意味します。この技術の再現難易度が高くなければ、より多くのモデルがデフォルトで投機的デコード加速をサポートする方向に進む可能性が高いです。

限界:すべてのシナリオに適用できるわけではない

ただし、投機的デコードは万能ではありません。その高速化効果はハードウェアの並列処理能力に大きく依存します。シングルGPUカードでは、ドラフト生成と検証の直列化により利益が減少する可能性があります。さらに、短いテキスト生成(シングルターンQ&Aなど)では、ドラフトモデルの起動オーバーヘッドが高速化のメリットを相殺する可能性があります。Googleのテストは主に長シーケンス(512トークン以上)を対象としており、短タスクシナリオでの性能データはまだ公開されていません。

編者の見解では、Gemma 4のより大きな価値は、「無痛の高速化」というパラダイムを実証した点にあります——モデルの重みを変更せず、品質を犠牲にすることなく、スループットを大幅に向上させることができるのです。これは低コストAIサービス(チャットボット、コンテンツ生成など)に直接利用可能なインフラを提供します。

本記事はArs Technicaから翻訳・編集したものです