DeepSeek-V4:初日で推論と強化学習をサポート

私たちはDeepSeek-V4がリリース初日に推論と強化学習(RL)トレーニングをサポートすることを発表できることを嬉しく思います。SGLangMilesが最初のオープンソース技術スタックを形成し、DeepSeek-V4をサービスし訓練します。このシステムは混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション(mHC)、FP4専門家重みを活用するために設計されています。

Figure 1

クイックオーバービュー

  • 推論(キャッシュと注意力):シャドウ基数プレフィックスキャッシュ、HiSparse CPU拡張KV、MTP推測デコードとグラフ内メタデータ、フラッシュコンプレッサー、Lightning TopK、階層的マルチストリームオーバーラップ。
  • 推論(カーネルとデプロイ):高速カーネル統合(FlashMLA、FlashInfer TRTLLM-Gen MoE、DeepGEMM Mega MoE、TileLang mHC)、DP/TP/CP注意力、DeepEP上のEP MoE、PDデカップリング。
  • RLトレーニング:完全並列化(DP/TP/SP/EP/PP/CP)、TileLang注意力、安定性の向上、FP8トレーニング。
  • ハードウェアサポート:Hopper、Blackwell、Grace Blackwell、AMD、NPU。

モデルの主要な特徴と新しい能力

DeepSeek-V4(1.6T Pro、284B Flash)は、前身であるDeepSeek-V3.2の3つの側面を拡張しています:

  • 混合稀疏注意力:各層で混合スライディングウィンドウ注意力と2種類の圧縮メカニズム(4:1 top-kまたは128:1密集)を組み合わせ、1Mトークンのコンテキストウィンドウの制御性を維持。
  • 流形制約ハイパーコネクション(mHC):標準の残差接続の拡張で、勾配の流動性と表現品質を改善。
  • FP4専門家重み:最新のBlackwellハードウェア上で効率的にサービスするためのローカルFP4 MoE専門家。

設計、特徴とパフォーマンス最適化

シャドウ基数:混合注意力のローカルプレフィックスキャッシュ

DeepSeek-V4の各層は、SWA(最新の128個の原始トークン上のスライディングウィンドウ注意力)とC4(4:1圧縮KV上のtop-512スパース)またはC128(128:1圧縮KV上の密集)を組み合わせています。進行中の圧縮KVスロットを維持するため、各圧縮層には進行中の圧縮状態を保存する状態プールがあります。この複雑なメカニズムは、従来のプレフィックスキャッシュの仮定を破り、3つの異質なKVプールと2つの圧縮状態プールを保持する必要があります。Figure 2

この一貫性の問題を解決するために、私たちはシャドウ基数という混合注意力のためのローカルプレフィックスキャッシュメカニズムを導入しました。

核心となる考えは、基数ツリーインデックスが仮想全トークンスロットを指し示し、これは全層が共有する統一された座標系です。各スロットから、シャドウ(各プールインデックスマッピング)を物理的プール(SWA / C4 / C128)に投影します。圧縮状態のリングバッファは自身のプール内にありますが、2次算術シャドウが各リングスロットをSWAページインデックスにマッピングし、論理的にはSWA内にネストされ、物理的には独立しています。これによりライフサイクルのデカップリングが可能になります:墓碑化はスライディングウィンドウがノードを超えるとSWAスロットを解放しますが、C4/C128のシャドウは活発に保たれ、共有可能です。したがって、10kトークンのリクエストは128個のSWAトークンとその完全なC4/C128圧縮KVのみを保持し、この圧縮KVは他のプレフィックス一致リクエストで再利用されます。

Figure 3

推測デコード

DeepSeek-V4は単層のMTPヘッドを備えています——単独で訓練されたDSv4デコード層で、SWA注意力のみを実行し(コンプレッサーやインデクサーはなし)、前段階の隠れ状態(h_proj)と次のトークン埋め込み(e_proj)を入力として組み合わせます。リリース初日にこれをサポートしています;実際のシステムはその下のレイヤーで動作します。混合注意力のメタデータは重く、スケジューラーフロー内で事前準備が推測デコードのボトルネックになります——そのため、この準備をCUDAグラフに統合し、ドラフトと検証パスに使用します。

2つの最適化がスピードアップをもたらします:

  • グラフ内メタデータ準備。混合注意力の各パスのメタデータは重く——SWAページインデックス、シャドウマッピングプールスロット、コンプレッサー/インデクサープラン、各プールの書き込み位置——ですが、これはページテーブルと長さに対するインデックス算術であり、デバイスカーネルに適しています。そのため、キャプチャされたグラフは原始バッチ状態のみを各再生入力(アクティブリクエスト、現在の長さ、新しいKV目的地)として必要とし、固定バッファにコピーされます;キャプチャされたカーネルがグラフ内で残りを再構築し、Pythonは再生中に各パスの経路に一切接触しません。これにより、各ステップの起動オーバーヘッドが最小限に圧縮され、そうでなければ推測デコードを支配してしまうでしょう。
  • オーバーラップスケジューリング。CPU側の作業(結果処理、バッチ準備、解放)とGPU実行が並行して行われます。
Figure 4

図3. 混合稀疏注意力とシャドウ基数、グラフ内推測メタデータを組み合わせることで、SGLangデコードスループットが4Kから900Kまでほぼ滑らかに維持されます——モデル全体の1Mコンテキストウィンドウに近い。B200(199 -> 180 トークン/秒)とH200(266 -> 240 トークン/秒)での低下は10%以下です。

HiSparse:階層的メモリによる稀疏注意力の加速

最近発表されたHiSparseは、非アクティブKVキャッシュをCPUメモリにオフロードすることで、稀疏注意力に対してより大きなバッチサイズとより高いスループットを提供する技術です。HiSparseは自然にC4層に適合します:各ステップのインデクサーtop-kは圧縮位置のごく一部にしか触れないため、大多数のC4 KVは常に非アクティブであり、CPU上に存在できます。C128は密集しており(各位置が触れられる)、SWAはすでに小さい(128トークン)ため、両者ともオフロードから利益を得ることはできません。CPUメモリプールを使用してC4 KVキャッシュプールのみを拡張することで、長いコンテキストサービスの全体的なトークン容量とスループットを最大3倍まで向上させました。

HiSparse architectureHiSparse peak throughput

左図:GPUにはC4 KVキャッシュのアクティブワーキングセット用の小型デバイスバッファのみを保持し、より大きな固定CPUミラーが完全なコンテキストKVキャッシュを保存します。各ステップで、HiSparseコーディネーターはCPUからミスページを交換し、非アクティブなGPUページをLRU戦略で駆逐します。新たに生成されたトークンは非同期的にCPUミラーにバックアップされます。右図:2xB200上での[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)のピークスループット、200K入力 / 20K出力、swa_full_tokens_ratio=0.001