AI推理优化に関するニュース

SGLangにおけるWaterfillとLPLBによるDeepEP MoE負荷分散の最適化

SGLangにおいて、MoEモデルのExpert Parallelism環境下でのトークンルーティング不均衡を解消するため、WaterfillとLPLBという2つのスケジューリング時負荷分散手法が導入された。2ノードHopper GPU上で