SGLang が NVIDIA Nemotron 3 Super に Day-0 対応、効率的なマルチエージェントシステムを実現

私たちは興奮をもって、SGLangNVIDIA Nemotron 3 Super への Day-0 サポートを実現したことを発表します。

Nemotron 3 Super は Nemotron 3 シリーズの主要なオープンソースモデルで、複数の協調エージェントの実行専用に設計されています。マルチエージェントシステムは計画、推論、ツールチェーンの連携を含み、単一ラウンドの対話をはるかに超えるトークン数を生成しながら、各ステップで強力な推論能力を維持する必要があります。

Nemotron 3 Super は 120B パラメータの混合 MoE モデルで、各順伝播で 12B パラメータのみを活性化し、エンコーディング、ツール呼び出し、指示準拠において業界をリードする精度を提供しながら、コストはわずか数分の一で、1M トークンのコンテキストをサポートし、エージェントが長いプロセスで対話と計画の状態を維持できるようにします。

figure1
Artificial Analysis のチャートは、Nemotron 3 Super が知能とオープン性の比較で同類の人気オープンソースモデルをリードしていることを示しています

上図に示すように、Nemotron 3 Super は Artificial Analysis Openness インデックスでリードしています。他のオープンソースモデルと比較して、Nemotron は完全にオープンな重み、データセット、レシピを提供し、開発者は簡単にカスタマイズ、最適化し、自社のインフラストラクチャにデプロイでき、最大のプライバシーとセキュリティを確保します。

本記事では、SGLang のインストールと Nemotron 3 Super を推論用にデプロイする方法をガイドします。

Nemotron 3 Super について

  • アーキテクチャ:専門家混合(Mixture of Experts, MoE)とハイブリッド Transformer-Mamba アーキテクチャの組み合わせ
    • そのサイズカテゴリで最高のスループット効率、前世代の Nemotron Super モデル(Llama Nemotron Super 1.5)より最大 5 倍高速
    • Multi-Token Prediction (MTP):単一の順伝播で複数の未来トークンを同時に予測し、長文生成を大幅に高速化
    • Thinking Budget をサポートし、最小の推論トークン生成で最高の精度を実現
  • 精度:そのサイズカテゴリで Artificial Analysis Intelligence Index をリード
    • 前世代の Nemotron Super モデルより最大 2 倍の精度
    • Latent MoE により、単一専門家の推論コストで 4 つの専門家を呼び出すことが可能
  • モデル規模:総計 120B パラメータ、アクティブ 12B パラメータ
  • コンテキスト長:最大 1M
  • モデル I/O:テキスト入力、テキスト出力
  • サポート GPU:B200、H100、H200、DGX Spark、RTX 6000
  • クイックスタート

インストールとクイックスタート

SGLang のセットアップを簡単にするには、入門 Cookbook を参照するか、NVIDIA Brev 起動を通じて実行してください。

以下のコマンドを実行して依存関係をインストールします:

pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'

次にモデルサービスを起動します。以下のコマンドは 4xH200 設定用で、詳細は Cookbook を参照してください:

# BF16
python3 -m sglang.launch_server \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --host 0.0.0.0 \
  --port 5000 \
  --trust-remote-code \
  --tp 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

サーバーが起動したら、以下のコードでモデルにプロンプトを送信します:

from openai import OpenAI

# サーバー起動時に使用したモデル名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"

BASE_URL = f"http://localhost:5000/v1"
API_KEY = "EMPTY"  # SGLang サーバーはデフォルトで API キー不要

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, "\nContent:", resp.choices[0].message.content)

Nemotron 3 Super はマルチエージェントと推論ワークロードに最適

figure2
Artificial Analysis のチャートは、Nemotron 3 Super が知能と効率の比較で同類の人気オープンソースモデルをリードしていることを示しています

上図に示すように、このモデルは Artificial Analysis ベンチマークで業界をリードする精度とより高い効率を実現し、マルチエージェントシステムの理想的な選択肢となっています。

1M トークンのコンテキストは長時間のエージェントタスク専用に設計されています:エージェントは完全な対話履歴と計画状態を保持でき、RAG パイプラインは大規模なドキュメントセットを一度に提供でき、多段階プロセスでの断片化と目標のずれを減らします。

これらの機能により、Super は単一ノードで複数のエージェントを編成するための強力な選択肢となります。コード生成とデバッグから、研究要約、アラートトリアージ、ドキュメント分析まで対応できます。

クイックスタート

Nemotron 3 Super は、高精度を維持しながら、スケーラブルで効率的なマルチエージェント AI の構築を支援します。オープンな重み、データセット、レシピは完全な透明性を提供し、ワークステーションからクラウドまで自社のインフラストラクチャで微調整とデプロイが可能です。

マルチエージェント AI を大規模に実行する準備はできましたか?

謝辞

Nemotron 3 Super を SGLang に導入するために貢献したすべての方々に感謝します。

NVIDIA:Nirmal Kumar Juluru、Anusha Pant、Max Xu、Daniel Afrimi、Shahar Mor、Roi Koren、Ann Guan と多くの貢献者

SGLang チームとコミュニティ:Baizhou Zhang、Jiajun Li、Ke Bao、Lingyan Hao、Mingyi Lu