SGLang Diffusion:動画と画像生成の高速化
SGLang DiffusionはSGLangの優れた性能を拡散モデルの画像・動画生成分野に拡張し、主流のオープンソースモデルをサポートしながら1.2倍から5.9倍の高速化を実現します。
最新AIモデルのレビュー、比較評価、深度分析
SGLang DiffusionはSGLangの優れた性能を拡散モデルの画像・動画生成分野に拡張し、主流のオープンソースモデルをサポートしながら1.2倍から5.9倍の高速化を実現します。
SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。
大規模MoEトレーニングと本番ワークロード向けに設計されたエンタープライズ級強化学習フレームワーク「Miles」をリリース。軽量RLフレームワーク「slime」をベースに、信頼性、スケーラビリティ、制御性を強化。
LMSYSがオープンソースAIインフラストラクチャに貢献する米国の博士課程学生を対象に、最大5万ドルの奨学金プログラムを開始しました。
RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。
EAGLE-3は軽量なdraft headを使用してLLMの推論を2-3倍高速化する技術で、Vertex AIでの本番環境での実装における技術的課題と解決策を紹介。
SGLangがNVIDIA Model Optimizerをネイティブ統合し、フルプレシジョンモデルから高性能量子化エンドポイントへの直接変換を可能にした。この統合により、単一GPU上で最大2倍のスループット向上を実現している。
Tensor R-Forkは、高効率なノード間デバイス間インターコネクトを活用し、実行中のSGLangインスタンスから新しいインスタンスへゼロコピーでテンソルを読み込む新しい重み読み込み手法です。Deepseek-R1モデルの読み込み時間を数分から数秒に短縮し、約600GBのストレージを節約します。
SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。
SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。
Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。
SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。
SpecForgeチームが複数の業界パートナーと協力し、大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集「SpecBundle(Phase 1)」と、全面的に再構築されたSpecForge v0.2を発表。推測デコーディングの実用性とパフォーマンス向上を目指す。
SGLangが視覚言語モデル(VLM)の視覚エンコーディングと言語処理を分離するEncoder-Prefill-Decode(EPD)アーキテクチャを発表し、視覚エンコーディング容量の独立拡張と大幅な性能向上を実現。
SGLang RLチームがINT4量子化認識トレーニング(QAT)のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。
Novita AIがSGLangを用いたGLM4-MoEモデルの本番環境向け最適化を開発し、Shared Experts FusionやSuffix Decodingの統合により、エージェントコーディングワークロードでTTFTを最大65%削減、TPOTを22%向上させることに成功しました。