DeepSeek-V3:MLPerf Training v6.0における大規模MoE事前学習ベンチマーク
MLPerf Training v6.0に新たに追加されたDeepSeek-V3ベースの大規模事前学習ベンチマークについて解説。MoEアーキテクチャ、MLA、無補助損失の負荷分散など、現代のLLM学習における主要な技術革新を捕捉する標準化さ
MLPerf Training v6.0に新たに追加されたDeepSeek-V3ベースの大規模事前学習ベンチマークについて解説。MoEアーキテクチャ、MLA、無補助損失の負荷分散など、現代のLLM学習における主要な技術革新を捕捉する標準化さ
SGLangチームとNVIDIAの協力により、GB300 NVL72上でDeepSeek R1の推論性能がH200比で最大25倍向上し、大規模MoEモデルの展開コストを大幅に削減しました。