SGLang に関するニュース

KTransformersがSGLangの混合推理を高速化

清華大学とApproaching.AIが開発したKTransformersプロジェクトは、MoEモデルのCPU/GPU混合推理を最適化し、SGLangに統合されることで大幅な性能向上を実現しました。

LMSYS AI技術混合推理 KTransformers

2026年2月4日 1,641

SGLang Pipeline Parallelism：100万トークンコンテキスト拡張とパフォーマンスブレイクスルー

SGLangが超長コンテキスト推論のために高度に最適化されたPipeline Parallelism（PP）を実装し、DeepSeek-V3.1で3.31倍のPrefillスループット向上、TTFTを最大67.9%削減、強スケーリング効率8

LMSYS SGLang Pipeline Parallelism 超长上下文

2026年2月4日 1,491

AMD GPU上のFP4混合精度推論最適化

AMD GPUでFP4量子化モデルを効率的に実行するためのGPUカーネル集「Petit」を開発し、Llama 3.3 70Bモデルで1.74倍の推論性能向上を実現しました。

LMSYS AMD GPU FP4量化 Petit

2026年2月4日 1,061

SGLangが決定論的推論と再現可能なRL訓練を実現

SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 1,246

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を

LMSYS SGLang DeepSeek GB200

2026年2月4日 1,350

SGLangとの協業：H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス

H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 1,544

PD-Multiplexing：GreenContextによる高いGoodputを実現するLLMサービスの新パラダイム

NVIDIA GPUのGreenContext技術を活用し、同一インスタンス内でprefillとdecodeを効率的に多重化する新しいLLMサービスパラダイム「PD-Multiplexing」を提案し、SGLangで実装した初期成果を紹介し

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 1,132

SGLang、DeepSeek-V3.2の疎注意メカニズムを即日サポート

SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム（DSA）により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 1,190

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 3,035

SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 1,281

NVIDIA DGX Spark上でGPT-OSSを最適化：Sparkの最大限の可能性を解放

NVIDIA DGX Spark上でSGLangを使用してGPT-OSS 20B/120Bモデルを高速に実行する方法を詳しく解説し、ローカルコーディングエージェントの実現を可能にします。

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 1,519

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 1,144

AutoRoundとSGLangが連携：効率的な量子化モデル推論の新時代

SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。

LMSYS AutoRound SGLang 模型量化

2026年2月4日 1,352

Miles発表：大規模MoEトレーニングのためのエンタープライズ級RLフレームワークを点火

大規模MoEトレーニングと本番ワークロード向けに設計されたエンタープライズ級強化学習フレームワーク「Miles」をリリース。軽量RLフレームワーク「slime」をベースに、信頼性、スケーラビリティ、制御性を強化。

LMSYS Miles 强化学习 MoE训练

2026年2月4日 1,283

研究から本番環境へ：EAGLE-3がVertex AIでオープンソースLLMの推論を2-3倍高速化

EAGLE-3は軽量なdraft headを使用してLLMの推論を2-3倍高速化する技術で、Vertex AIでの本番環境での実装における技術的課題と解決策を紹介。

LMSYS EAGLE-3 Speculative Decoding Vertex AI

2026年2月4日 905

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 1,188

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を

LMSYS SGLang Tensor R-Fork GPU-Direct RDMA

2026年2月4日 978

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 1,095

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

LMSYS MiMo-V2-Flash SGLang SWA

2026年2月4日 1,073

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 1,209