レビュー 統一FP8:混合精度を超え、安定的な高速化を実現するMoE RL訓練 RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。 LMSYS FP8 RL训练 MoE模型 2026年2月4日 615