SGLang に関するニュース

SGLangがNVIDIA GTC 2026で輝いた瞬間

SGLangチームがNVIDIA GTC 2026に参加し、パネルディスカッション、Happy Hour、200人規模のMeetup、ハンズオントレーニングラボなど5つのイベントを3日間で開催。LLMエコシステムの中心で大きな成果を収めた。

LMSYS SGLang NVIDIA GTC 开源AI

2026年4月2日 382

SGLangにおけるElastic EP：DeepSeek MoEデプロイメントの部分故障耐性

SGLangがElastic EPを統合し、大規模MoEモデルの推論における部分故障耐性を実現。従来の2-3分のダウンタイムを10秒以下に短縮し、性能を損なうことなく信頼性を大幅に向上させた。

LMSYS SGLang Elastic EP MoE

2026年3月27日 411

SGLang が NVIDIA Nemotron 3 Super に Day-0 対応、効率的なマルチエージェントシステムを実現

SGLangがNVIDIA Nemotron 3 Superに即日対応し、1M tokenのコンテキスト長と高効率なMoEアーキテクチャを活用したマルチエージェントシステムの構築を可能にしました。

LMSYS SGLang Nemotron 3 Super 多代理系统

2026年3月12日 726

SGLang、NVIDIA GB300 NVL72で25倍の推論性能向上を実現

SGLangチームとNVIDIAの協力により、GB300 NVL72上でDeepSeek R1の推論性能がH200比で最大25倍向上し、大規模MoEモデルの展開コストを大幅に削減しました。

LMSYS SGLang NVIDIA GB300 推理性能

2026年3月5日 499

GB300 NVL72のDeepSeek展開：長いコンテキスト推論の大幅な向上

GB300 NVL72は、長いコンテキストでのLLM推論における最強のプラットフォームです。新たな技術的進展により、DeepSeek R1-NVFP4の128K/8K ISL/OSL長いコンテキストサービスが最適化され、GB200と比較して

LMSYS GB300 NVL72 DeepSeek SGLang

2026年2月21日 684

計算能力の解放：AMD MI300X上でのQwen3とQwen3-VLの究極レイテンシ最適化

Qwen C端インフラエンジニアリングチームとAMD AIフレームワークチームが協力し、AMD Instinct™ MI300X GPUプラットフォーム上でQwen3-235BとQwen3-VL-235Bの極限レイテンシ最適化を実施し、TT

LMSYS Qwen3 Qwen3-VL AMD MI300X

2026年2月13日 1,060

AAAI 2025：LMSYS OrgがChatbot Arenaの最新ベンチマークを発表

LMSYS OrgがAAAI 2025大会でChatbot Arenaの最新ベンチマーク結果を発表し、グローバルAIチャットボットランキングを更新すると共に、開発者に貴重なモデル最適化の洞察を提供した。

MLC AAAI 2025 Chatbot Arena Elo Rating

2026年2月10日 3,311

MLPerf Auto v0.5 ベンチマーク結果発表：LMSYS Org がトップに

MLCommonsがAutoML分野の権威あるベンチマークテスト「MLPerf Auto v0.5」の最新結果を発表し、大規模言語モデル（LLM）の自動化調整においてLMSYS Orgがトップの成績を収めた。

MLC MLPerf AutoML LMSYS

2026年2月10日 668

DeepSeek Inference 5.1 ベンチマーク詳細分析

LMSYS Orgの最新報告によると、DeepSeek Inference 5.1がMLCommons 2025年9月の推論ベンチマークで傑出した性能を示し、オープンソース推論エンジンの新たなマイルストーンを達成した。

MLC DeepSeek 推理引擎 MLCommons基准

2026年2月10日 702

ISO-AUS：MLCommonsが新世代AI推論ベンチマークを発表

MLCommonsとLMSYS Orgが共同で、隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワーク「ISO-AUS」ベンチマークテストを発表した。

MLC ISO-AUS AI基准 LMSYS

2026年2月10日 690

KTransformersがSGLangの混合推理を高速化

清華大学とApproaching.AIが開発したKTransformersプロジェクトは、MoEモデルのCPU/GPU混合推理を最適化し、SGLangに統合されることで大幅な性能向上を実現しました。

LMSYS AI技术混合推理 KTransformers

2026年2月4日 950

SGLang Pipeline Parallelism：100万トークンコンテキスト拡張とパフォーマンスブレイクスルー

SGLangが超長コンテキスト推論のために高度に最適化されたPipeline Parallelism（PP）を実装し、DeepSeek-V3.1で3.31倍のPrefillスループット向上、TTFTを最大67.9%削減、強スケーリング効率8

LMSYS SGLang Pipeline Parallelism 超长上下文

2026年2月4日 690

AMD GPU上のFP4混合精度推論最適化

AMD GPUでFP4量子化モデルを効率的に実行するためのGPUカーネル集「Petit」を開発し、Llama 3.3 70Bモデルで1.74倍の推論性能向上を実現しました。

LMSYS AMD GPU FP4量化 Petit

2026年2月4日 731

SGLangが決定論的推論と再現可能なRL訓練を実現

SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 718

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を

LMSYS SGLang DeepSeek GB200

2026年2月4日 770

SGLangとの協業：H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス

H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 731

PD-Multiplexing：GreenContextによる高いGoodputを実現するLLMサービスの新パラダイム

NVIDIA GPUのGreenContext技術を活用し、同一インスタンス内でprefillとdecodeを効率的に多重化する新しいLLMサービスパラダイム「PD-Multiplexing」を提案し、SGLangで実装した初期成果を紹介し

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 642

SGLang、DeepSeek-V3.2の疎注意メカニズムを即日サポート

SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム（DSA）により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 700

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,788

SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 756