強化学習(RL)は急速に現代の基盤モデル開発の中核段階となっています。大規模事前学習は依然として重要ですが、今日最も強力なモデルは推論、ツール使用、マルチターンインタラクション能力を向上させるために後学習技術に依存しています。
Milesの紹介
Milesは、言語およびマルチモーダルモデルの大規模後学習のために設計されたオープンソースRLフレームワークです。SGLangとSlime RLエコシステム上に構築され、プロダクション級のRLパイプラインを目指しています。
Milesが提供するインフラストラクチャには以下が含まれます:
- 分散ロールアウト生成
- ポリシー最適化(GRPO / PPO)
- ポリシーベースのRLトレーニングループ
- Rayベースのオーケストレーション
- Megatron-LMおよびSGLangとの統合;FSDPなどの他のバックエンドもサポート
なぜRLワークロードがAMD Instinct GPUに適しているのか
RLワークロードと事前学習の主な違いは、ロールアウト生成が計算を支配することです。現代のRLトレーニングは、数千の並列環境で長いシーケンスを生成するためにGPU時間の70-90%を費やす可能性があります。これにより、メモリ容量と帯域幅が重要なパフォーマンス要因となります。
ROCm上のMiles RLシステムアーキテクチャ
Milesは、ロールアウト生成(SGLang)とモデル最適化(Megatron)を分離し、スケーラブルな後学習のためにスケジューラーを介して調整する分離型RLトレーニングアーキテクチャです。
始め方:AMD GPU上でMilesを実行する
Milesは、最小限のセットアップで完全なRLパイプラインを実行できるように、事前構築されたコンテナを含むROCm対応ワークフローを提供します。GPUの世代に合わせてコンテナを選択してください:
- MI300X:
rlsys/miles:rocm7-MI300-sglang0.5.9-latest - MI350X / MI355X:
rlsys/miles:rocm7-MI350-355-sglang0.5.9-latest
Miles ROCmコンテナの起動
# MI350X / MI355X:
# export MILES_IMAGE=rlsys/miles:rocm7-MI350-355-sglang0.5.9-latest
# MI300X:
export MILES_IMAGE=rlsys/miles:rocm7-MI300-sglang0.5.9-latest
docker pull $MILES_IMAGE
docker run -it \
--device /dev/dri --device /dev/kfd \
--group-add video --cap-add SYS_PTRACE \
--security-opt seccomp=unconfined --privileged \
-v $HOME:$HOME --shm-size 128G \
--ulimit memlock=-1 --ulimit stack=67108864 \
-w $PWD $MILES_IMAGE /bin/bashMilesのインストールとリソースのダウンロード
git clone https://github.com/radixark/miles.git
cd miles
git checkout 90b66b542b38c3b67537bb99a505bb707ebfcf6d
pip install -e .実験とパフォーマンス
エージェントタスクトレーニング:マルチターンインタラクション
マルチターンインタラクションエージェントは、実際のAIシステムのデフォルトインターフェースとして急速に普及しています。ほとんどの実際のタスクは複数ステップの推論を必要とし、コード/ツールはエージェントが作業を検証し、軌道の途中でフィードバックを使用してエラーを修正するのを助けます。
このセクションでは、Qwen2.5-32BがPythonインタープリターを使用して高校数学スタイルの問題を処理するようにトレーニングされたマルチターンの例を示します。
パフォーマンス
単一の8-GPU AMD Instinct MI300Xノードで、GRPO(32×8サンプリング、8kレスポンス上限、グローバルバッチ256)を使用してQwen3-30B-A3Bをトレーニングしました。TP4/EP8シーケンス並列Megatron設定を使用し、KL損失項なしです。
AMD上の機能サポートロードマップ
今日、コアMiles機能はAMD上で完全にサポートされています。これには以下が含まれます:
- GRPOトレーニング
- モデルおよびデータ並列性
- 動的バッチング
- MegatronとFSDPバックエンドの両方をサポート
- 部分ロールアウト
- Milesルーター
私たちの目標は、機能の同等性だけでなく、Milesロードマップの進化と一致した継続的なパフォーマンスと能力の改善も含まれます。
まとめ
強化学習は現在、基盤モデル開発の中核段階となっています。MilesのROCmサポートにより、AMD GPUユーザーはMI300/350レベルのクラスター上で、分散ロールアウトとGRPOトレーニングを含む最新のRLパイプラインを実行できます。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接