レビュー SGLangにおけるWaterfillとLPLBによるDeepEP MoE負荷分散の最適化 SGLangにおいて、MoEモデルのExpert Parallelism環境下でのトークンルーティング不均衡を解消するため、WaterfillとLPLBという2つのスケジューリング時負荷分散手法が導入された。2ノードHopper GPU上で LMSYS MoE SGLang 负载均衡 8時間前 15