正則化中心化エンファティックTD学習の提案 Regularized Centered Emphatic Temporal Difference Learning
AI要約 強化学習における方策オフ評価の安定化を目的に、エンファティックTD学習を中心化と正則化により改良した手法を提案。分散の低減と収束性の向上を理論的・実験的に示し、関数近似下での学習を安定化させる。
EN This paper proposes a regularized and centered variant of Emphatic Temporal Difference learning for off-policy evaluation in reinforcement learning, aiming to reduce variance and improve convergence with function approximation through theoretical and empirical analysis.
og