1月28日更新:NVIDIAがNVFP4精度のNemotron 3 Nanoモデルをリリースしました。このモデルはSGLangをそのまま使用でき、Quantization-Aware Distillation (QAD)新手法を採用し、NVFP4で精度を維持しながら、B200上でFP8-H100比で4倍のスループット向上を実現しています。こちらからNVFP4チェックポイントをダウンロードし、NVIDIA Brevランチャーで実行できます。
SGLang、高効率NVIDIA Nemotron 3 Nanoモデルを即日サポート
SGLangが最新の高効率NVIDIA Nemotron 3 Nanoモデルをリリース当日にサポートしたことを興奮をもってお知らせします!
Nemotron 3 Nanoは新しくリリースされたオープンソース Nemotron 3シリーズの一部で、コンパクトなMoE言語モデルとして業界最高レベルの計算効率と精度を提供し、開発者が専門的なエージェント型AIシステムを構築することを支援します。
このモデルは重み、データセット、トレーニングレシピを含む完全なオープンソースで、開発者が自社インフラストラクチャでカスタマイズ、最適化、デプロイを行い、最大限のプライバシーとセキュリティを確保できます。下図は、Nemotron 3 NanoがArtificial Analysisのオープン性対インテリジェンス指標図で最良の象限に位置していることを示しています。

TL;DR
- アーキテクチャ:Mixture of Experts (MoE)とHybrid Transformer-Mambaアーキテクチャを採用し、Thinking Budgetをサポートして最小の推論トークン生成で最高精度を実現
- 精度:コーディング、科学的推論、数学、指示追従などの分野で業界をリード
- モデルサイズ:30Bパラメータ、アクティブパラメータ3.6B
- コンテキスト長:1M
- 入出力:テキスト
- サポートGPU:NVIDIA RTX Pro 6000、DGX Spark、H100、B200
- クイックスタート:
- Hugging Faceから重みをダウンロード - BF16、FP8、NVFP4
- SGLangで推論を実行
- カスタム最適化モデル構築のための技術レポート
インストールとクイックスタート
SGLangを使用して設定を簡素化するには、入門ハンドブックを参照するか、NVIDIA Brev ランチャーを使用してください。
以下のコマンドを実行して依存関係をインストール:
uv pip install sglang==0.5.6.post3.dev1278+gad1b4e472 --extra-index-url https://sgl-project.github.io/whl/nightly/
その後、サービスを起動:
# BF16
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
# FP8
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-FP8 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
# NVFP4
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-NVFP4 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
サーバー起動後、以下のコードでモデルにプロンプトを送信:
from openai import OpenAI
# サーバー起動時に使用したモデル名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16"
BASE_URL = f"http://localhost:30000/v1"
API_KEY = "EMPTY" # SGLangサーバーはデフォルトでAPIキー不要
client = OpenAI(base_url=BASE_URL, api_key=API_KEY)
resp = client.chat.completions.create(
model=SERVED_MODEL_NAME,
messages=[
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Give me 3 bullet points about SGLang."}
],
temperature=0.6,
max_tokens=512,
)
print(resp.choices[0].message.reasoning_content, resp.choices[0].message.content)
Nemotron 3 Nano:AIエージェント構築のための最高効率と業界最高精度
Nemotron 3 Nanoは混合Mamba-Transformerアーキテクチャに基づき、標準FFN層をMoE層に置き換え、大部分のアテンション層をMamba-2に変更し、一部のアクティブパラメータのみで高精度を実現します。MoEによって計算要求を削減し、リアルタイムデプロイメントの低レイテンシ要件を満たします。
その混合アーキテクチャはトークンスループットを最大4倍向上させ、より高速な推論とより高い精度を実現します。「Thinking Budget」機能は不要な計算を回避し、過度の思考を削減し、より低く予測可能な推論コストを確保します。

NVIDIA厳選の高品質データでトレーニングされたNemotron 3 Nanoは、SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2、IFBenchなどのベンチマークで業界をリードし、金融、サイバーセキュリティ、ソフトウェア開発、小売などの企業シナリオでのAIエージェント構築に適しています。

クイックスタート
- Hugging Faceから重みをダウンロード - BF16、FP8、NVFP4
- SGLangハンドブックまたはNVIDIA Brev ランチャーを使用して推論を実行
さらに詳しく
- アイデアを共有し、投票でNemotronの未来を形作る
- NVIDIAニュースを購読し、NVIDIA Nemotronをフォロー、LinkedIn、X、YouTube、Discord Nemotronチャンネルで最新情報を入手
謝辞
Nemotron 3 NanoをSGLangに開発・統合したすべての貢献者に感謝します。
NVIDIAチーム:Roi Koren、Max Xu、Netanel Haber、Tomer Bar Natan、Daniel Afrimi、Nirmal Kumar Juluru、Ann Guan他
SGLangチームとコミュニティ:Baizhou Zhang、Jiajun Li、Ke Bao、Mingyi Lu、Richard Chen
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接