GB200 NVL72でのDeepSeek最適化(二):プリフィル3.8倍、デコード4.8倍のスループット
SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を
SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を
SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。