SGLangが決定論的推論と再現可能なRL訓練を実現
SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を
SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を
RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。
SGLang RLチームがINT4量子化認識トレーニング(QAT)のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。