HomeTags#rft

#rft page 1/1 · 1 total

TODAY 1 entries
NEW paper research 3h ago · arxiv-cs-ai

強化ファインチューニングの失敗を自動管理する堅牢なLLM事後学習手法 Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

AI要約 本論文は強化学習によるLLM事後学習(RFT)で生じる学習失敗を自動検出・対処する枠組みを提案する。報酬崩壊や勾配不安定などの障害を監視し、リトライや調整を行うことで、RFTの安定性と最終性能を高めることを狙う。

EN This paper proposes an automatic failure management framework for reinforcement fine-tuning (RFT) of LLMs, detecting and recovering from training instabilities such as reward collapse and gradient anomalies to improve robustness and final model quality.

arxiv.org
Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning og