推理优化に関するニュース

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を

LMSYS SGLang DeepSeek GB200

2026年2月4日 1,105

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 942

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

LMSYS MiMo-V2-Flash SGLang SWA

2026年2月4日 888

SGLang が拡散大規模モデルを強化：LLaDA 2.0 を即日サポート

SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。

LMSYS SGLang dLLM LLaDA 2.0

2026年2月4日 861