SGLang即座にMiMo-V2-Flashモデルをサポート
SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。
SGLangがMiMo-V2-Flashモデルの高効率サポートを実現。スライディングウィンドウアテンションと多層MTPにより、推論効率を大幅に向上させた。
Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。
SGLang に Diffusion Large Language Model (dLLM) フレームワークを統合し、既存の ChunkedPrefill メカニズムを活用してシームレスな統合、高性能、最大限の柔軟性を実現しました。
SpecForgeチームが複数の業界パートナーと協力し、大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集「SpecBundle(Phase 1)」と、全面的に再構築されたSpecForge v0.2を発表。
SGLangが視覚言語モデル(VLM)の視覚エンコーディングと言語処理を分離するEncoder-Prefill-Decode(EPD)アーキテクチャを発表し、視覚エンコーディング容量の独立拡張と大幅な性能向上を実現。
SGLang RLチームがINT4量子化認識トレーニング(QAT)のエンドツーエンドソリューションを実現し、約1TB規模のモデルを単一H200 GPUでのデプロイを可能にしました。
Novita AIがSGLangを用いたGLM4-MoEモデルの本番環境向け最適化を開発し、Shared Experts FusionやSuffix Decodingの統合により、エージェントコーディングワークロードでTTFTを最大65%削