ROCmがMilesをサポート：AMD GPU上での大規模RL後学習

2026年3月24日 734 約6分 LMSYS

LMSYS 强化学习 AMD ROCm Miles GPU

強化学習（RL）は急速に現代の基盤モデル開発の中核段階となっています。大規模事前学習は依然として重要ですが、今日最も強力なモデルは推論、ツール使用、マルチターンインタラクション能力を向上させるために後学習技術に依存しています。

Milesの紹介

Milesは、言語およびマルチモーダルモデルの大規模後学習のために設計されたオープンソースRLフレームワークです。SGLangとSlime RLエコシステム上に構築され、プロダクション級のRLパイプラインを目指しています。

Milesが提供するインフラストラクチャには以下が含まれます：

分散ロールアウト生成
ポリシー最適化（GRPO / PPO）
ポリシーベースのRLトレーニングループ
Rayベースのオーケストレーション
Megatron-LMおよびSGLangとの統合；FSDPなどの他のバックエンドもサポート

なぜRLワークロードがAMD Instinct GPUに適しているのか

RLワークロードと事前学習の主な違いは、ロールアウト生成が計算を支配することです。現代のRLトレーニングは、数千の並列環境で長いシーケンスを生成するためにGPU時間の70-90%を費やす可能性があります。これにより、メモリ容量と帯域幅が重要なパフォーマンス要因となります。

ROCm上のMiles RLシステムアーキテクチャ

Milesは、ロールアウト生成（SGLang）とモデル最適化（Megatron）を分離し、スケーラブルな後学習のためにスケジューラーを介して調整する分離型RLトレーニングアーキテクチャです。

始め方：AMD GPU上でMilesを実行する

Milesは、最小限のセットアップで完全なRLパイプラインを実行できるように、事前構築されたコンテナを含むROCm対応ワークフローを提供します。GPUの世代に合わせてコンテナを選択してください：

MI300X: rlsys/miles:rocm7-MI300-sglang0.5.9-latest
MI350X / MI355X: rlsys/miles:rocm7-MI350-355-sglang0.5.9-latest

Miles ROCmコンテナの起動

# MI350X / MI355X:
# export MILES_IMAGE=rlsys/miles:rocm7-MI350-355-sglang0.5.9-latest
# MI300X:
export MILES_IMAGE=rlsys/miles:rocm7-MI300-sglang0.5.9-latest
docker pull $MILES_IMAGE
docker run -it \
  --device /dev/dri --device /dev/kfd \
  --group-add video --cap-add SYS_PTRACE \
  --security-opt seccomp=unconfined --privileged \
  -v $HOME:$HOME --shm-size 128G \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -w $PWD $MILES_IMAGE /bin/bash

Milesのインストールとリソースのダウンロード

git clone https://github.com/radixark/miles.git
cd miles
git checkout 90b66b542b38c3b67537bb99a505bb707ebfcf6d
pip install -e .

実験とパフォーマンス

エージェントタスクトレーニング：マルチターンインタラクション

マルチターンインタラクションエージェントは、実際のAIシステムのデフォルトインターフェースとして急速に普及しています。ほとんどの実際のタスクは複数ステップの推論を必要とし、コード/ツールはエージェントが作業を検証し、軌道の途中でフィードバックを使用してエラーを修正するのを助けます。

このセクションでは、Qwen2.5-32BがPythonインタープリターを使用して高校数学スタイルの問題を処理するようにトレーニングされたマルチターンの例を示します。

パフォーマンス

単一の8-GPU AMD Instinct MI300Xノードで、GRPO（32×8サンプリング、8kレスポンス上限、グローバルバッチ256）を使用してQwen3-30B-A3Bをトレーニングしました。TP4/EP8シーケンス並列Megatron設定を使用し、KL損失項なしです。

AMD上の機能サポートロードマップ

今日、コアMiles機能はAMD上で完全にサポートされています。これには以下が含まれます：

GRPOトレーニング
モデルおよびデータ並列性
動的バッチング
MegatronとFSDPバックエンドの両方をサポート
部分ロールアウト
Milesルーター

私たちの目標は、機能の同等性だけでなく、Milesロードマップの進化と一致した継続的なパフォーマンスと能力の改善も含まれます。

まとめ

強化学習は現在、基盤モデル開発の中核段階となっています。MilesのROCmサポートにより、AMD GPUユーザーはMI300/350レベルのクラスター上で、分散ロールアウトとGRPOトレーニングを含む最新のRLパイプラインを実行できます。 ROCmがMilesをサポート：AMD GPU上での大規模RL後学習

図 1 Milesアーキテクチャ図