オープンソースRLライブラリ16種に学ぶ非同期学習の現状 Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries
AI要約 Hugging Faceが16のオープンソース強化学習ライブラリを比較調査し、LLM向けRL訓練における非同期化やトークン生成効率化の課題と設計パターンを整理。スループット向上のための学習・推論分離やオフポリシー対応の動向を解説する。
EN Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries