Google、Gemma 4をオープンソース化:KVキャッシュを3ビットに圧縮しメモリを6倍節約、総合性能は第三者の検証待ち

【事実出典:Google公式発表】Googleは最近、オープンソースの多モーダルAIモデルGemma 4を正式に発表しました。今回の新バージョンでは初めてビデオや画像処理機能をサポートし、Apache 2.0オープンソースライセンスを採用しています。これにより、個人および商業ユーザーは無料で使用、改変、再配布することができ、追加の許可制限はありません。同時に発表されたTurboQuant専用量子化技術により、大規模モデル推論のコア依存であるKVキャッシュを3ビットに圧縮し、6倍以上のメモリ使用量を節約できます。

技術原理の分解:3ビットKV圧縮がなぜ重要なのか?

非専門読者にとって、KVキャッシュは大規模モデルの「短期記憶」と理解できます。大規模モデルは回答を生成したり、複数回の対話や長文を処理する際に、計算済みのコンテキスト特徴を「キー(Key)」と「値(Value)」の形式でビデオメモリに保存します。これは、各文字を生成するたびに全てのコンテキストを再計算することを避けるためであり、大規模モデルの推論速度やサポートする対話の最大長において重要な要素です。

これまで業界の主流のKVキャッシュ精度は多くが8ビットまたは16ビットで、ビデオメモリの使用量が高く、消費者向けグラフィックスカードでは7B以上のパラメータモデルの32K以上の長コンテキスト推論を支えることができませんでした。今回、Gemma 4に搭載されたTurboQuant技術は、推論精度の損失を1%未満に抑える前提でKVキャッシュを3ビットに圧縮し、同じグラフィックスカードでサポートできるコンテキスト長が直接6倍に向上したり、通常はプロのサーバーグラフィックスカードが必要なモデルを消費者向けグラフィックスカードでスムーズに動作させることができます。

コミュニティの反応と初期評価

【事実出典:GitHub、Hugging Face公開コミュニティデータ】Gemma 4が発表された後、オープンソースコミュニティの反応は積極的で、多くの開発者がApache 2.0の緩やかなライセンスと顕著なメモリ効率向上により、多モーダル大規模モデルの実用化のハードルがさらに下がり、AI技術の民主化が進むと述べています。発表時点で、Gemma 4関連プロジェクトのGitHubでのスター数はすでに1万を突破し、Hugging Faceプラットフォームでの累計ダウンロード数は25万回を超えています。

winzheng.com Research Labは《YZ Index v6》の方法論に基づきGemma 4を初期評価しました:

  • 主ランキングcore_overall_displayに含まれるコード実行(execution)、材料制約(grounding)の2つの監査可能な次元の完全なスコアリングはまだテスト中で、72時間以内に完全な評価レポートが発表される予定です;
  • エンジニアリング判断(サイドランキング、AI補助評価)は、同パラメータのオープンソース多モーダルモデルでTop3レベルに位置し、タスク表現(サイドランキング、AI補助評価)は公式宣伝パラメータに合致しています;
  • 誠実性評価:合格;
  • 運行信号次元:安定性、利用可能性データは引き続き収集中です。

不確実性と今後の展望

【事実出典:winzheng.com Research Lab技術評価フレームワーク】現在、Gemma 4にはまだ検証が必要な指標が多数あります。同レベルのオープンソース多モーダルモデルであるLlama 3、Qwen 2との総合性能比較、複雑な業界シナリオでの実用化のパフォーマンス、128K以上の超長コンテキストシナリオでの3ビットKV圧縮の精度損失などについては、まだ公開されている第三者テストデータはありません。

winzheng.comは中立的なAI専門ポータルとして、「事実は検証可能、意見は追跡可能、評価は再現可能」という技術価値観を常に堅持しており、すべての技術的結論は標準化されたテストフレームワークに基づいています。

Gemma 4の発表はAI開発者、企業ユーザーに新しいオープンソース多モーダルモデルの選択肢を提供し、winzheng.com読者にも新しい技術研究と評価素材を提供しています。今後、winzheng.com Research LabはGemma 4の性能パフォーマンス、実用化適応性に関して全面的なテストを行い、中立的で専門的な評価結果をいち早く読者に提供します。