AIレビュー・評価 | Winzheng AI ニュース

SGLang Diffusion：動画と画像生成の高速化

SGLang DiffusionはSGLangの優れた性能を拡散モデルの画像・動画生成分野に拡張し、主流のオープンソースモデルをサポートしながら1.2倍から5.9倍の高速化を実現します。

AutoRoundとSGLangが連携：効率的な量子化モデル推論の新時代

SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。

Miles発表：大規模MoEトレーニングのためのエンタープライズ級RLフレームワークを点火

大規模MoEトレーニングと本番ワークロード向けに設計されたエンタープライズ級強化学習フレームワーク「Miles」をリリース。軽量RLフレームワーク「slime」をベースに、信頼性、スケーラビリティ、制御性を強化。

LMSYS博士フェローシップ・プログラムが正式に開始

LMSYSがオープンソースAIインフラストラクチャに貢献する米国の博士課程学生を対象に、最大5万ドルの奨学金プログラムを開始しました。

統一FP8：混合精度を超え、安定的な高速化を実現するMoE RL訓練

RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。

研究から本番環境へ：EAGLE-3がVertex AIでオープンソースLLMの推論を2-3倍高速化

EAGLE-3は軽量なdraft headを使用してLLMの推論を2-3倍高速化する技術で、Vertex AIでの本番環境での実装における技術的課題と解決策を紹介。

SGLang推論加速：NVIDIA Model Optimizerのネイティブ統合により、シームレスな量子化デプロイを実現

SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。

テンソルを飛翔させる：R-Forkが大規模モデルの重み読み込みを加速

Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を数分から数秒に短縮し、約600GBのストレージを節約します。

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

SGLang即座にMiMo-V2-Flashモデルをサポート

SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

SGLang が拡散大規模モデルを強化：LLaDA 2.0 を即日サポート

SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。

SpecBundleとSpecForge v0.2：本番環境対応の推測デコーディングモデルとフレームワークが重大リリース

SpecForgeチームが複数の業界パートナーと協力し、大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集「SpecBundle（Phase 1）」と、全面的に再構築されたSpecForge v0.2を発表。推測デコーディングの実用性とパフォーマンス向上を目指す。

SGLangにおけるEPDデカップリング：ビジョン言語モデルの弾性エンコーダー拡張

SGLangが視覚言語モデル（VLM）の視覚エンコーディングと言語処理を分離するEncoder-Prefill-Decode（EPD）アーキテクチャを発表し、視覚エンコーディング容量の独立拡張と大幅な性能向上を実現。

単一H200での1TBモデルデプロイ：INT4 QAT RLエンドツーエンド実践

SGLang RLチームがINT4量子化認識トレーニング（QAT）のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。

SGLang最適化によるGLM4-MoEの本番環境デプロイ：TTFTが65%向上

Novita AIがSGLangを用いたGLM4-MoEモデルの本番環境向け最適化を開発し、Shared Experts FusionやSuffix Decodingの統合により、エージェントコーディングワークロードでTTFTを最大65%削減、TPOTを22%向上させることに成功しました。