GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO Explains why the GRPO reinforcement-learning method collapses during long training due to …
AI要約 推論モデルのRL手法GRPOがトークン単位の重要度比のばらつきで長時間学習時に崩壊する問題を、一次情報(arXiv 2507.18071とQwen公式)から解説。Qwenが提案した系列単位で最適化するGSPOがこれをどう安定化させるかを読み解く。
EN Explains why the GRPO reinforcement-learning method collapses during long training due to noisy token-level importance ratios, and how Qwen's sequence-level GSPO stabilises optimisation for reasoning models.