レビュー 1Tパラメータを秒単位で更新:大規模分散RLにおけるP2P重み転送 SGLangのRLワークロード向けに、従来のNCCLブロードキャスト方式を補完するRDMAベースのポイントツーポイント重み更新メカニズムを導入。1TパラメータのKimi-K2モデルの重み転送時間を53秒から7.2秒へと7倍高速化した。 LMSYS RDMA传输 P2P权重更新 分布式RL 3時間前 38