LMSYS に関するAIニュース | Winzheng AI ニュース

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を

LMSYS SGLang DeepSeek GB200

2026年2月4日 1,350

レビュー

SGLangとの協業：H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス

H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 1,544

レビュー

PD-Multiplexing：GreenContextによる高いGoodputを実現するLLMサービスの新パラダイム

NVIDIA GPUのGreenContext技術を活用し、同一インスタンス内でprefillとdecodeを効率的に多重化する新しいLLMサービスパラダイム「PD-Multiplexing」を提案し、SGLangで実装した初期成果を紹介し

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 1,132

レビュー

SGLang、DeepSeek-V3.2の疎注意メカニズムを即日サポート

SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム（DSA）により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 1,190

レビュー

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 3,037

レビュー

SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 1,281

レビュー

SGLang-Jax：ネイティブTPU推論のためのオープンソース利器

SGLang-JaxはJaxとXLAに基づく最先端のオープンソース推論エンジンで、高速なネイティブTPU推論を実現し、他のTPU推論ソリューションに匹敵またはそれを上回る性能を発揮します。

LMSYS SGLang-Jax TPU推理 Jax优化

2026年2月4日 1,081

レビュー

NVIDIA DGX Spark上でGPT-OSSを最適化：Sparkの最大限の可能性を解放

NVIDIA DGX Spark上でSGLangを使用してGPT-OSS 20B/120Bモデルを高速に実行する方法を詳しく解説し、ローカルコーディングエージェントの実現を可能にします。

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 1,520

レビュー

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 1,144

レビュー

SGLang Diffusion：動画と画像生成の高速化

SGLang DiffusionはSGLangの優れた性能を拡散モデルの画像・動画生成分野に拡張し、主流のオープンソースモデルをサポートしながら1.2倍から5.9倍の高速化を実現します。

LMSYS SGLang Diffusion 扩散模型图像生成

2026年2月4日 1,270

レビュー

AutoRoundとSGLangが連携：効率的な量子化モデル推論の新時代

SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。

LMSYS AutoRound SGLang 模型量化

2026年2月4日 1,352

レビュー

Miles発表：大規模MoEトレーニングのためのエンタープライズ級RLフレームワークを点火

大規模MoEトレーニングと本番ワークロード向けに設計されたエンタープライズ級強化学習フレームワーク「Miles」をリリース。軽量RLフレームワーク「slime」をベースに、信頼性、スケーラビリティ、制御性を強化。

LMSYS Miles 强化学习 MoE训练

2026年2月4日 1,284

レビュー

LMSYS博士フェローシップ・プログラムが正式に開始

LMSYSがオープンソースAIインフラストラクチャに貢献する米国の博士課程学生を対象に、最大5万ドルの奨学金プログラムを開始しました。

LMSYS 博士奖学金オープンソースAI AIインフラ

2026年2月4日 987

レビュー

統一FP8：混合精度を超え、安定的な高速化を実現するMoE RL訓練

RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。

LMSYS FP8 RL训练 MoE模型

2026年2月4日 907

レビュー

研究から本番環境へ：EAGLE-3がVertex AIでオープンソースLLMの推論を2-3倍高速化

EAGLE-3は軽量なdraft headを使用してLLMの推論を2-3倍高速化する技術で、Vertex AIでの本番環境での実装における技術的課題と解決策を紹介。

LMSYS EAGLE-3 Speculative Decoding Vertex AI

2026年2月4日 906

レビュー

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 1,188

レビュー

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を

LMSYS SGLang Tensor R-Fork GPU-Direct RDMA

2026年2月4日 978

レビュー

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 1,096

レビュー

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

LMSYS MiMo-V2-Flash SGLang SWA

2026年2月4日 1,074

レビュー

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 1,209

LMSYS に関するニュース

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangとの協業：H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス

PD-Multiplexing：GreenContextによる高いGoodputを実現するLLMサービスの新パラダイム

SGLang、DeepSeek-V3.2の疎注意メカニズムを即日サポート

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

SGLang-Jax：ネイティブTPU推論のためのオープンソース利器

NVIDIA DGX Spark上でGPT-OSSを最適化：Sparkの最大限の可能性を解放

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

SGLang Diffusion：動画と画像生成の高速化

AutoRoundとSGLangが連携：効率的な量子化モデル推論の新時代

Miles発表：大規模MoEトレーニングのためのエンタープライズ級RLフレームワークを点火

LMSYS博士フェローシップ・プログラムが正式に開始

統一FP8：混合精度を超え、安定的な高速化を実現するMoE RL訓練

研究から本番環境へ：EAGLE-3がVertex AIでオープンソースLLMの推論を2-3倍高速化

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLang即座にMiMo-V2-Flashモデルをサポート

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析