SGLang-JAXがTPU上でLing-2.6-1Tを最適化：単一Pallasカーネルでおよそ MoEのデータ移動を隠蔽

2026年6月29日 3 約4分 LMSYS

LMSYS MoE 优化 TPU 推理 SGLang-JAX 性能基准 Pallas 内核

SGLang-JAXがTPU上でLing-2.6-1Tを最適化：単一Pallasカーネルでおよそ MoEのデータ移動を隠蔽

SGLang-JAXは現在、inclusionAIのLing-2.6-1TのTPU v7x上への効率的なデプロイをサポートしている。ベースライン実行後、性能分析によりMixture-of-Experts（MoE）パスが主要なボトルネックであることが判明した。各層でトークンを32台のJAXデバイス（v7xチップ1基につき2デバイス）にスキャタリングし、エキスパートFFNを実行した後、出力をギャザリングする必要がある。本記事では、Fused MoE V2——scatter・expert FFN・gatherを融合しつつTPUの計算とデータ移動を同時に隠蔽する全く新しいPallasカーネル——を中心に紹介する。

Ling-2.6-1T decode throughput, TPU v7x vs GPU H200

Fused MoE V2により、MoE prefillレイテンシが5.16 msから2.42 msに短縮され、同一のSGLangデコードベンチマークにおいて、16チップTPU v7xの出力スループットは16基のH200 GPUの1.29×〜1.77×を達成した。

TL;DR

Fused MoE V2：MoE prefillレイテンシがV1比53%低下（5.16→2.42 ms）、デコードカーネルレイテンシが約15%低下（0.249→0.211 ms）。
エンドツーエンドの効果：MoEカーネルの置き換えのみで、prefillスループットが24.8%向上、デコードスループットが18.5%〜35.3%向上。
TPU vs H200：TPU v7x-16は、mc=128においてデコード出力スループットがH200×16の1.29倍、mc=512において1.77倍を達成。

Ling-2.6-1Tモデル概要

Ling-2.6-1Tは1Tパラメータのスパース MoEモデルであり、トークンあたり63Bパラメータを活性化する。256個のrouted expert（top-8ルーティング）に加えてshared expertを1つ備え、per-channel fp8重みとMLA + Lightning Linearのハイブリッドバックボーンネットワークを採用している。