GLM4-MoE 本番環境最適化:SGLang による TTFT 65% 高速化

GLM4-MoE 本番環境最適化:SGLang による TTFT 65% 高速化

Novita AI は SGLang をベースに、GLM4-MoE モデル向けの本番環境検証済み高インパクト最適化ソリューションを開発しました。カーネル実行効率からクロスノードデータ転送スケジューリングまで、推論パイプライン全体をカバーするエンドツーエンドのパフォーマンス最適化戦略を提案します。Shared Experts Fusion と Suffix Decoding を統合することで、エージェントコーディングワークロードにおける主要指標を大幅に向上させました。

本番環境向けコア最適化の実装

1. Shared Experts Fusion

この最適化は Deepseek モデルに関連する研究に由来しています。GLM4.7 はすべての入力トークンを共有エキスパートに通すと同時に、各トークンを top-k エキスパートにルーティングし、最終的に加重集約して出力します。共有エキスパートをルーティング MoE 構造に統合する(161 個のエキスパートから top 9 を選択)ことで、TP8 FP8 構成において SM 利用率を大幅に向上させ、メモリ I/O オーバーヘッドを削減します。

Shared Experts Fusion

この最適化により、TTFT 最大 23.7%、ITL 最大 20.8% の改善が得られます。

2. Qknorm Fusion

Qwen-MoE の最適化アプローチをベースに、head-wise で計算するオペレーターを単一カーネルに融合し、GLM4-MoE が head 内の半分の次元のみをローテーションするという特性に適応しています。

Qknorm Fusion

3. Async Transfer

PD 分離オーバーラップスケジューリング環境において、データ転送を事前にスケジュールして独立スレッドに配置し、メインスレッドのブロッキングを回避します。92 層モデルに対して、高負荷時に最大 1 秒の TTFT 節約が可能です。

Async Transfer ScheduleAsync Transfer TTFT Gains

本番環境ベンチマーク結果

テスト構成:入力長 4096、出力長 1000、リクエストレート 14 req/s、モデル GLM-4.7 FP8 (TP8)。

Benchmark TTFTBenchmark TPOT

Suffix Decoding

エージェントコーディングシナリオにおいて、Suffix Decoding は追加のモデルウェイトを必要とせず、過去の出力パターンを活用した投機的デコーディングにより、TPOT をさらに 22% 削減します(25.13ms から 19.63ms へ)。

How Suffix Decoding Works

まとめ

これらの最適化は Novita AI の本番推論サービスにデプロイ済みであり、大部分のコンポーネントは SGLang のアップストリームリポジトリにマージされています。