GRPO下での勾配ベースLoRAランク割当に関する実証研究 Gradient-Based LoRA Rank Allocation Under GRPO: An Empirical Study
AI要約 本論文は強化学習手法GRPOを用いたLLM微調整において、LoRAのランクを層ごとに勾配情報に基づき動的に割り当てる手法を実証的に検証した。固定ランクに比べ、推論タスクでの効率と性能の両立が可能であることを示している。
EN This empirical study explores gradient-based dynamic LoRA rank allocation under GRPO reinforcement learning fine-tuning, showing that adaptive per-layer ranks can improve the efficiency-performance trade-off compared to uniform rank assignments on reasoning tasks.