正則化中心化エンファティックTD学習の提案 Regularized Centered Emphatic Temporal Difference Learning
AI 3 行サマリ
- 強化学習における方策オフ評価の安定化を目的に、エンファティックTD学習を中心化と正則化により改良した手法を提案。
- 分散の低減と収束性の向上を理論的・実験的に示し、関数近似下での学習を安定化させる。
English summary
- This paper proposes a regularized and centered variant of Emphatic Temporal Difference learning for off-policy evaluation in reinforcement learning, aiming to reduce variance and improve convergence with function approximation through theoretical and empirical analysis.
※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。
元記事を読む
arxiv.org
本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。