SGLangとの協業:H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス
H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS
H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS
SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。