RL训练に関するニュース

SGLangが決定論的推論と再現可能なRL訓練を実現

SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 960

統一FP8：混合精度を超え、安定的な高速化を実現するMoE RL訓練

RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。

LMSYS FP8 RL训练 MoE模型

2026年2月4日 787

単一H200での1TBモデルデプロイ：INT4 QAT RLエンドツーエンド実践

SGLang RLチームがINT4量子化認識トレーニング（QAT）のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。

LMSYS INT4 QAT 量化感知训练 RL训练

2026年2月4日 807