GLM4-MoE 本番環境最適化:SGLang による TTFT 65% 高速化
Novita AI は SGLang をベースに GLM4-MoE モデル向けの本番環境検証済み高インパクト最適化ソリューションを開発し、Shared Experts Fusion と Suffix Decoding の統合によりエージェン
Novita AI は SGLang をベースに GLM4-MoE モデル向けの本番環境検証済み高インパクト最適化ソリューションを開発し、Shared Experts Fusion と Suffix Decoding の統合によりエージェン
SGLang-JAXがTPU v7x上でLing-2.6-1Tの効率的なデプロイをサポートし、新たなFused MoE V2 Pallasカーネルによりscatter・expert FFN・gatherを融合してTPUの計算とデータ移動を同