SGLang に関するニュース

レビュー

NVIDIA DGX Spark上でGPT-OSSを最適化：Sparkの最大限の可能性を解放

NVIDIA DGX Spark上でSGLangを使用してGPT-OSS 20B/120Bモデルを高速に実行する方法を詳しく解説し、ローカルコーディングエージェントの実現を可能にします。

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 816

レビュー

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 698

レビュー

AutoRoundとSGLangが連携：効率的な量子化モデル推論の新時代

SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。

LMSYS AutoRound SGLang 模型量化

2026年2月4日 715

レビュー

Miles発表：大規模MoEトレーニングのためのエンタープライズ級RLフレームワークを点火

大規模MoEトレーニングと本番ワークロード向けに設計されたエンタープライズ級強化学習フレームワーク「Miles」をリリース。軽量RLフレームワーク「slime」をベースに、信頼性、スケーラビリティ、制御性を強化。

LMSYS Miles 强化学习 MoE训练

2026年2月4日 661

レビュー

研究から本番環境へ：EAGLE-3がVertex AIでオープンソースLLMの推論を2-3倍高速化

EAGLE-3は軽量なdraft headを使用してLLMの推論を2-3倍高速化する技術で、Vertex AIでの本番環境での実装における技術的課題と解決策を紹介。

LMSYS EAGLE-3 Speculative Decoding Vertex AI

2026年2月4日 595

レビュー

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 677

レビュー

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を

LMSYS SGLang Tensor R-Fork GPU-Direct RDMA

2026年2月4日 575

レビュー

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 665

レビュー

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

LMSYS MiMo-V2-Flash SGLang SWA

2026年2月4日 653

レビュー

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 727

レビュー

SGLang が拡散大規模モデルを強化：LLaDA 2.0 を即日サポート

SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。

LMSYS SGLang dLLM LLaDA 2.0

2026年2月4日 708

レビュー

SGLangにおけるEPDデカップリング：ビジョン言語モデルの弾性エンコーダー拡張

SGLangが視覚言語モデル（VLM）の視覚エンコーディングと言語処理を分離するEncoder-Prefill-Decode（EPD）アーキテクチャを発表し、視覚エンコーディング容量の独立拡張と大幅な性能向上を実現。

LMSYS SGLang EPD VLMs

2026年2月4日 734

レビュー

単一H200での1TBモデルデプロイ：INT4 QAT RLエンドツーエンド実践

SGLang RLチームがINT4量子化認識トレーニング（QAT）のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。

LMSYS INT4 QAT 量化感知训练 RL训练

2026年2月4日 626

レビュー

SGLang最適化によるGLM4-MoEの本番環境デプロイ：TTFTが65%向上

Novita AIがSGLangを用いたGLM4-MoEモデルの本番環境向け最適化を開発し、Shared Experts FusionやSuffix Decodingの統合により、エージェントコーディングワークロードでTTFTを最大65%削

LMSYS GLM4-MoE SGLang 性能优化

2026年2月4日 688