DeepSeek-V4：初日で推論と強化学習をサポート

2026年4月26日 98 約8分 LMSYS

LMSYS 深度学习强化学习开源技术性能优化

私たちはDeepSeek-V4がリリース初日に推論と強化学習（RL）トレーニングをサポートすることを発表できることを嬉しく思います。SGLangとMilesが最初のオープンソース技術スタックを形成し、DeepSeek-V4をサービスし訓練します。このシステムは混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション（mHC）、FP4専門家重みを活用するために設計されています。

クイックオーバービュー

推論（キャッシュと注意力）：シャドウ基数プレフィックスキャッシュ、HiSparse CPU拡張KV、MTP推測デコードとグラフ内メタデータ、フラッシュコンプレッサー、Lightning TopK、階層的マルチストリームオーバーラップ。
推論（カーネルとデプロイ）：高速カーネル統合（FlashMLA、FlashInfer TRTLLM-Gen MoE、DeepGEMM Mega MoE、TileLang mHC）、DP/TP/CP注意力、DeepEP上のEP MoE、PDデカップリング。
RLトレーニング：完全並列化（DP/TP/SP/EP/PP/CP）、TileLang注意力、安定性の向上、FP8トレーニング。
ハードウェアサポート：Hopper、Blackwell、Grace Blackwell、AMD、NPU。

モデルの主要な特徴と新しい能力

DeepSeek-V4（1.6T Pro、284B Flash）は、前身であるDeepSeek-V3.2の3つの側面を拡張しています：

混合稀疏注意力：各層で混合スライディングウィンドウ注意力と2種類の圧縮メカニズム（4:1 top-kまたは128:1密集）を組み合わせ、1Mトークンのコンテキストウィンドウの制御性を維持。
流形制約ハイパーコネクション（mHC）：標準の残差接続の拡張で、勾配の流動性と表現品質を改善。
FP4専門家重み：最新のBlackwellハードウェア上で効率的にサービスするためのローカルFP4 MoE専門家。

設計、特徴とパフォーマンス最適化

シャドウ基数：混合注意力のローカルプレフィックスキャッシュ

DeepSeek-V4の各層は、SWA（最新の128個の原始トークン上のスライディングウィンドウ注意力）とC4（4:1圧縮KV上のtop-512スパース）またはC128（128:1圧縮KV上の密集）を組み合わせています。進行中の圧縮KVスロットを維持するため、各圧縮層には進行中の圧縮状態を保存する状態プールがあります。この複雑なメカニズムは、従来のプレフィックスキャッシュの仮定を破り、3つの異質なKVプールと2つの圧縮状態プールを保持する必要があります。

この一貫性の問題を解決するために、私たちはシャドウ基数という混合注意力のためのローカルプレフィックスキャッシュメカニズムを導入しました。

核心となる考えは、基数ツリーインデックスが仮想全トークンスロットを指し示し、これは全層が共有する統一された座標系です。各スロットから、シャドウ（各プールインデックスマッピング）を物理的プール（SWA / C4 / C128）に投影します。圧縮状態のリングバッファは自身のプール内にありますが、2次算術シャドウが各リングスロットをSWAページインデックスにマッピングし、論理的にはSWA内にネストされ、物理的には独立しています。これによりライフサイクルのデカップリングが可能になります：墓碑化はスライディングウィンドウがノードを超えるとSWAスロットを解放しますが、C4/C128のシャドウは活発に保たれ、共有可能です。したがって、10kトークンのリクエストは128個のSWAトークンとその完全なC4/C128圧縮KVのみを保持し、この圧縮KVは他のプレフィックス一致リクエストで再利用されます。

推測デコード

DeepSeek-V4は単層のMTPヘッドを備えています——単独で訓練されたDSv4デコード層で、SWA注意力のみを実行し（コンプレッサーやインデクサーはなし）、前段階の隠れ状態（h_proj）と次のトークン埋め込み（e_proj）を入力として組み合わせます。リリース初日にこれをサポートしています；実際のシステムはその下のレイヤーで動作します。混合注意力のメタデータは重く、スケジューラーフロー内で事前準備が推測デコードのボトルネックになります——そのため、この準備をCUDAグラフに統合し、ドラフトと検証パスに使用します。

2つの最適化がスピードアップをもたらします：

グラフ内メタデータ準備。混合注意力の各パスのメタデータは重く——SWAページインデックス、シャドウマッピングプールスロット、コンプレッサー/インデクサープラン、各プールの書き込み位置——ですが、これはページテーブルと長さに対するインデックス算術であり、デバイスカーネルに適しています。そのため、キャプチャされたグラフは原始バッチ状態のみを各再生入力（アクティブリクエスト、現在の長さ、新しいKV目的地）として必要とし、固定バッファにコピーされます；キャプチャされたカーネルがグラフ内で残りを再構築し、Pythonは再生中に各パスの経路に一切接触しません。これにより、各ステップの起動オーバーヘッドが最小限に圧縮され、そうでなければ推測デコードを支配してしまうでしょう。
オーバーラップスケジューリング。CPU側の作業（結果処理、バッチ準備、解放）とGPU実行が並行して行われます。

図3. 混合稀疏注意力とシャドウ基数、グラフ内推測メタデータを組み合わせることで、SGLangデコードスループットが4Kから900Kまでほぼ滑らかに維持されます——モデル全体の1Mコンテキストウィンドウに近い。B200（199 -> 180 トークン/秒）とH200（266 -> 240 トークン/秒）での低下は10%以下です。

HiSparse：階層的メモリによる稀疏注意力の加速

最近発表されたHiSparseは、非アクティブKVキャッシュをCPUメモリにオフロードすることで、稀疏注意力に対してより大きなバッチサイズとより高いスループットを提供する技術です。HiSparseは自然にC4層に適合します：各ステップのインデクサーtop-kは圧縮位置のごく一部にしか触れないため、大多数のC4 KVは常に非アクティブであり、CPU上に存在できます。C128は密集しており（各位置が触れられる）、SWAはすでに小さい（128トークン）ため、両者ともオフロードから利益を得ることはできません。CPUメモリプールを使用してC4 KVキャッシュプールのみを拡張することで、長いコンテキストサービスの全体的なトークン容量とスループットを最大3倍まで向上させました。

左図：GPUにはC4 KVキャッシュのアクティブワーキングセット用の小型デバイスバッファのみを保持し、より大きな固定CPUミラーが完全なコンテキストKVキャッシュを保存します。各ステップで、HiSparseコーディネーターはCPUからミスページを交換し、非アクティブなGPUページをLRU戦略で駆逐します。新たに生成されたトークンは非同期的にCPUミラーにバックアップされます。右図：2xB200上での[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)のピークスループット、200K入力 / 20K出力、swa_full_tokens_ratio=0.001。