レビュー SGLang推論加速:NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現 SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。 LMSYS SGLang NVIDIA Model Optimizer 模型量化 2026年2月4日 678