SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

2026年2月4日 666 約9分 LMSYS

LMSYS SGLang Nemotron 3 Nano NVIDIA MoE模型 AI推理

1月28日更新：NVIDIAがNVFP4精度のNemotron 3 Nanoモデルをリリースしました。このモデルはSGLangをそのまま使用でき、Quantization-Aware Distillation (QAD)新手法を採用し、NVFP4で精度を維持しながら、B200上でFP8-H100比で4倍のスループット向上を実現しています。こちらからNVFP4チェックポイントをダウンロードし、NVIDIA Brevランチャーで実行できます。

SGLang、高効率NVIDIA Nemotron 3 Nanoモデルを即日サポート

SGLangが最新の高効率NVIDIA Nemotron 3 Nanoモデルをリリース当日にサポートしたことを興奮をもってお知らせします！

Nemotron 3 Nanoは新しくリリースされたオープンソース Nemotron 3シリーズの一部で、コンパクトなMoE言語モデルとして業界最高レベルの計算効率と精度を提供し、開発者が専門的なエージェント型AIシステムを構築することを支援します。

このモデルは重み、データセット、トレーニングレシピを含む完全なオープンソースで、開発者が自社インフラストラクチャでカスタマイズ、最適化、デプロイを行い、最大限のプライバシーとセキュリティを確保できます。下図は、Nemotron 3 NanoがArtificial Analysisのオープン性対インテリジェンス指標図で最良の象限に位置していることを示しています。

NVIDIA Nemotron 3 NanoがArtificial Analysisのオープン性とインテリジェンス指標図で最良の象限に位置

NVIDIA Nemotron 3 NanoがオープンソースAIの新基準を設定

TL;DR

アーキテクチャ：Mixture of Experts (MoE)とHybrid Transformer-Mambaアーキテクチャを採用し、Thinking Budgetをサポートして最小の推論トークン生成で最高精度を実現
精度：コーディング、科学的推論、数学、指示追従などの分野で業界をリード
モデルサイズ：30Bパラメータ、アクティブパラメータ3.6B
コンテキスト長：1M
入出力：テキスト
サポートGPU：NVIDIA RTX Pro 6000、DGX Spark、H100、B200
クイックスタート：
- Hugging Faceから重みをダウンロード - BF16、FP8、NVFP4
- SGLangで推論を実行
- カスタム最適化モデル構築のための技術レポート

インストールとクイックスタート

SGLangを使用して設定を簡素化するには、入門ハンドブックを参照するか、NVIDIA Brev ランチャーを使用してください。

以下のコマンドを実行して依存関係をインストール：

uv pip install sglang==0.5.6.post3.dev1278+gad1b4e472 --extra-index-url https://sgl-project.github.io/whl/nightly/

その後、サービスを起動：

# BF16
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# FP8
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-FP8 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# NVFP4
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-NVFP4 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

サーバー起動後、以下のコードでモデルにプロンプトを送信：

from openai import OpenAI

# サーバー起動時に使用したモデル名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16"

BASE_URL = f"http://localhost:30000/v1"
API_KEY = "EMPTY"  # SGLangサーバーはデフォルトでAPIキー不要

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print(resp.choices[0].message.reasoning_content, resp.choices[0].message.content)

Nemotron 3 Nano：AIエージェント構築のための最高効率と業界最高精度

Nemotron 3 Nanoは混合Mamba-Transformerアーキテクチャに基づき、標準FFN層をMoE層に置き換え、大部分のアテンション層をMamba-2に変更し、一部のアクティブパラメータのみで高精度を実現します。MoEによって計算要求を削減し、リアルタイムデプロイメントの低レイテンシ要件を満たします。

その混合アーキテクチャはトークンスループットを最大4倍向上させ、より高速な推論とより高い精度を実現します。「Thinking Budget」機能は不要な計算を回避し、過度の思考を削減し、より低く予測可能な推論コストを確保します。

Nemotron 3 Nanoはオープンソース推論モデルでより高いスループットと業界最高精度を提供

Nemotron 3 Nanoはオープンソース推論モデルでスループットが高く、精度が業界をリード

NVIDIA厳選の高品質データでトレーニングされたNemotron 3 Nanoは、SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2、IFBenchなどのベンチマークで業界をリードし、金融、サイバーセキュリティ、ソフトウェア開発、小売などの企業シナリオでのAIエージェント構築に適しています。

Nemotron 3 Nanoはオープンソース小型推論モデルの各種学術ベンチマークテストで業界をリード

Nemotron 3 Nanoは人気の学術ベンチマークでオープンソース小型推論モデルをリード

クイックスタート

Hugging Faceから重みをダウンロード - BF16、FP8、NVFP4
SGLangハンドブックまたはNVIDIA Brev ランチャーを使用して推論を実行

さらに詳しく

アイデアを共有し、投票でNemotronの未来を形作る
NVIDIAニュースを購読し、NVIDIA Nemotronをフォロー、LinkedIn、X、YouTube、Discord Nemotronチャンネルで最新情報を入手

謝辞

Nemotron 3 NanoをSGLangに開発・統合したすべての貢献者に感謝します。

NVIDIAチーム：Roi Koren、Max Xu、Netanel Haber、Tomer Bar Natan、Daniel Afrimi、Nirmal Kumar Juluru、Ann Guan他

SGLangチームとコミュニティ：Baizhou Zhang、Jiajun Li、Ke Bao、Mingyi Lu、Richard Chen