LMSYS に関するAIニュース | Winzheng AI ニュース

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

LMSYS SGLang NVIDIA Model Optimizer 模型量化

2026年2月4日 1,188

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を

LMSYS SGLang Tensor R-Fork GPU-Direct RDMA

2026年2月4日 978

レビュー

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 1,096

レビュー

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

LMSYS MiMo-V2-Flash SGLang SWA

2026年2月4日 1,074

レビュー

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 1,209

レビュー

SGLang が拡散大規模モデルを強化：LLaDA 2.0 を即日サポート

SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。

LMSYS SGLang dLLM LLaDA 2.0

2026年2月4日 969

レビュー

SpecBundleとSpecForge v0.2：本番環境対応の推測デコーディングモデルとフレームワークが重大リリース

SpecForgeチームが複数の業界パートナーと協力し、大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集「SpecBundle（Phase 1）」と、全面的に再構築されたSpecForge v0.2を発表。

LMSYS 推测解码 SpecForge SpecBundle

2026年2月4日 935

レビュー

SGLangにおけるEPDデカップリング：ビジョン言語モデルの弾性エンコーダー拡張

SGLangが視覚言語モデル（VLM）の視覚エンコーディングと言語処理を分離するEncoder-Prefill-Decode（EPD）アーキテクチャを発表し、視覚エンコーディング容量の独立拡張と大幅な性能向上を実現。

LMSYS SGLang EPD VLMs

2026年2月4日 1,827

レビュー

単一H200での1TBモデルデプロイ：INT4 QAT RLエンドツーエンド実践

SGLang RLチームがINT4量子化認識トレーニング（QAT）のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。

LMSYS INT4 QAT 量化感知训练 RL训练

2026年2月4日 1,028

レビュー

SGLang最適化によるGLM4-MoEの本番環境デプロイ：TTFTが65%向上

Novita AIがSGLangを用いたGLM4-MoEモデルの本番環境向け最適化を開発し、Shared Experts FusionやSuffix Decodingの統合により、エージェントコーディングワークロードでTTFTを最大65%削

LMSYS GLM4-MoE SGLang 性能优化

2026年2月4日 1,161

LMSYS に関するニュース

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLang即座にMiMo-V2-Flashモデルをサポート

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

SGLang が拡散大規模モデルを強化：LLaDA 2.0 を即日サポート

SpecBundleとSpecForge v0.2：本番環境対応の推測デコーディングモデルとフレームワークが重大リリース

SGLangにおけるEPDデカップリング：ビジョン言語モデルの弾性エンコーダー拡張

単一H200での1TBモデルデプロイ：INT4 QAT RLエンドツーエンド実践

SGLang最適化によるGLM4-MoEの本番環境デプロイ：TTFTが65%向上