1. はじめに
Qwenは、アリババクラウドQwenチームが開発した大規模高性能大規模言語モデル(LLM)シリーズです。初代から最新の第3世代フラッグシップモデルまで、すべてのQwenバリアントは専用のトレーニングと精密な調整を経て、強力な指示追従能力、効率的なインタラクティブAIデプロイメント性、複雑なタスク解決性能を備えています。Qwen3ファミリーのフラッグシップとして、Qwen3-235BとQwen3-VL-235Bは多次元での全面的な向上を実現し、Qwen APPで大規模にデプロイされています。
最近、Qwen C端インフラエンジニアリングチームとAMD AIフレームワークチームが協力し、AMD Instinct™ MI300XシリーズGPUプラットフォーム上でSGLangフレームワークに基づき、Qwen3-235BとQwen3-VL-235Bに対して極限レイテンシ最適化ソリューションを実施し、性能、精度、安定性において顕著な成果を達成しました:
- Qwen3-235B:ベースラインと比較して、TTFTが1.67×向上、TPOTが2.12×向上。
- Qwen3-VL-235B:ベースラインと比較して、TTFTが1.62×向上、TPOTが1.90×向上。
AMD Instinct™ MI300XシリーズGPUはCDNA™ 3アーキテクチャに基づき、カードあたり192GB HBM3メモリを搭載し、70B以上のパラメータモデルの推論をサポートします。5.3TB/sのメモリ帯域幅、256MB Infinity Cache、ネイティブFP8およびPTPC量子化Matrix Coreを組み合わせることで、卓越した性能とコストパフォーマンスを提供し、大規模LLMクラスターデプロイメントに理想的です。
本稿では、両チームが共同で探求した性能最適化技術を詳述し、超低レイテンシ推論に焦点を当てています。すべての最適化作業はオープンソース化されています:[Tracking][Performance][AMD] Qwen3 & Qwen3-VL Latency Optimization on AMD Instinct™ MI300X Series GPUs。

図1. Qwen3-VLモデル構造(Qwen3-VL論文より引用)

2. レイテンシ最適化技術
2.1 Qwen3-235Bのレイテンシ最適化
Qwen3-235Bの推論計算フローは図2に示すとおりです。以下、主要コンポーネントの最適化について詳述します。
図2. Qwen3-235Bモデル推論計算フローチャート
2.1.1 GEMM量子化戦略

図3. PTPC-FP8:Per-Tokenアクティベーション、Per-Channel重み量子化
量子化はLLM推論を高速化する鍵となります。本研究ではPTPC(Per Token Activation, Per Channel Weight)量子化方式を採用しました。これはモデルの重みとアクティベーションの両方に適用されるFP8量子化手法で、その中核原理は図3に示されています。この方式はアクティベーションにper-token量子化、重みにper-channel量子化を適用し、従来のper-tensor FP8量子化と比較して、より高い精度とより低い情報損失を実現します。
標準的なBlockScale FP8と比較して、PTPCは同等の精度を維持しながら、より優れた計算効率を提供します。BlockScaleの固定ブロックサイズは、しばしばハードウェアGEMMユニットの最適タイルサイズとずれが生じ、データの分割と再配置のオーバーヘッドを引き起こします。PTPCの細粒度設計は固定ブロックの制約を排除し、ハードウェアGEMMのネイティブ計算粒度と自然に整合します。また、per-channel重み量子化は現代のアクセラレータのチャネル並列アーキテクチャとも一致します。低精度計算のスループット向上と組み合わせることで、PTPC GEMMはハードウェア利用率を大幅に向上させます。
AMD ROCm™プラットフォームでの実験により、PTPC FP8 GEMMはBlockScale FP8と比較して15%〜30%向上し、小行列やミスアライメント行列のシナリオではレイテンシの削減がさらに顕著であることが示されています。
2.1.2 並列戦略

図4. エキスパートホットスポット分布
Qwen3-235B Expert Parallelism(EP)実験において、特定のデータセットでエキスパートホットスポット(図4に示すように、例えばレイヤー57でEP ranks 10/120/216が頻繁にアクセスされる)が観察され、負荷の不均衡と推論ボトルネックが発生しました。
Qwenの本番環境では、TTFTとTPOTが重要な指標となります。テストにより、MoEモデルの推論は通常メモリバウンドであることが確認されました。MI300Xの高帯域幅HBMは、Tensor Parallelism(TP)のI/Oボトルネックを効果的に緩和し、レイテンシを大幅に削減します。
完全なQwen3-235B(MoE構造を含む)に対して、TP8テンソル並列とPTPC FP8量子化を組み合わせて極低レイテンシを実現しました。具体的には、PTPCの192個の独立したスケーリング係数により、MoEモジュールはTP8とシームレスに互換性を持ち、大規模並列の安定性と効率を保証します。
低並行性の極限レイテンシシナリオでは、TP8が重みを8枚のGPUに分散させ、単一カードのロードとメモリレイテンシを削減します。アーキテクチャ的にはMoEエキスパートの負荷不均衡を緩和し、超低レイテンシの基盤を築きます。
2.1.3 Attentionモジュール最適化
(1) 最適化されたKV-Cacheレイアウト
AttentionモジュールはAMD AITER Libraryの高性能MHAおよびPagedAttention演算子を統合し、専用KV Cacheレイアウトをカスタマイズしました:
- k_cache: [num_blocks, num_kv_heads, head_dim // x, block_size, x]
- v_cache: [num_blocks, num_kv_heads, block_size // X, head_dim, X]
このレイアウトはAMD CDNA™ 3メモリアクセスパターンに整合し、PagedAttentionのメモリ効率を大幅に向上させます。デコード段階では追加のD2Dコピーが不要となり、冗長なオーバーヘッドを排除します(図5)。標準的な[num_blocks, num_kv_heads, head_dim, block_size]レイアウトと比較して、デコードスループットが15%〜20%向上し、推論レイテンシを削減します。

図5. K Cacheレイアウト分布
(2) データ型最適化
- prefill段階:query、key、valueアクティベーションにper-tensor FP8量子化をMHAに適用。
- decode段階:queryはBF16を使用、KV Cacheはper-tensor FP8で保存(prefillと一致)。
混合精度設定によりHBM使用量を削減しながら、精度と性能を維持します。

2.1.4 MoE最適化
低並行性負荷下で、AITER内のMoE演算子は4つの次元から深く最適化されています:
- 負荷分散:低並行性推論でのCU細粒度タスクスケジューリングにより、ほぼ同期実行を実現し、アイドルサイクルを排除し、ハードウェア利用率を最大化。
- 計算効率:K次元のハードウェア認識ループチューニングにより、冗長な操作を排除し、スループットを向上。
- メモリ効率:アトミックメモリアクセスを最適化し、L2キャッシュヒット率を向上させ、帯域幅ボトルネックを緩和。
- 自動チューニング:手動最適化後、自動ツールが最適な構成を検索し、性能をさらに最大化。
負荷分散と細粒度スケジューリングはLLMデコーディングで顕著な効果を発揮し、最終的にMoEモジュールの性能が2倍向上しました。
2.1.5 カーネル融合最適化

主要な演算子を融合しました:
- モジュール2:QKNorm + RoPE
- モジュール6 & 9:AllReduce + AddRMSNorm + per-token quant
融合により頻繁なHBMアクセスを削減し、エンドツーエンドのレイテンシをさらに低減します。
| Fusion pattern | Before (us) | After (us) | Speedup Ratio |
|---|---|---|---|
| QKNorm + RoPE | 11.6 | 5.1 | 127% |
| AllReduce + AddRMSNorm + Quant | 35 | 21 | 67% |

2.2 Qwen3-VL-235B最適化

図6. SGLangでのQwen3-VL-235Bデプロイメント
Qwen3-235Bと比較して、Qwen3-VL-235Bはマルチモーダルデータ適応、前処理、クロスモーダルアラインメント、ViTエンコーダ実行、ビジュアルパッチ埋め込み、クロスモーダル特徴融合などの新しい推論段階を導入しています(図6の全プロセスを参照)。これらの拡張は推論パイプラインを延長し、複雑なクロスモーダル調整を伴い、単一リクエストのレイテンシを大幅に増加させます。

図7-10. 追加最適化図示(MoE、融合等の性能比較)
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接