GPT-OSS 20B:MLPerf Training v6.0 におけるスパース MoE 事前学習の新ベンチマーク
MLPerf Training Working Group は、MoE アーキテクチャを評価する新たな事前学習ベンチマーク GPT-OSS 20B を導入。単一の 8-GPU ノードでも実行可能で、統計分散を抑える工夫により公平性と再現性を
MLPerf Training Working Group は、MoE アーキテクチャを評価する新たな事前学習ベンチマーク GPT-OSS 20B を導入。単一の 8-GPU ノードでも実行可能で、統計分散を抑える工夫により公平性と再現性を
MLPerf Training v6.0に新たに追加されたDeepSeek-V3ベースの大規模事前学習ベンチマークについて解説。MoEアーキテクチャ、MLA、無補助損失の負荷分散など、現代のLLM学習における主要な技術革新を捕捉する標準化さ