HomeTags#off-policy

#off-policy page 1/1 · 1 total

TODAY 1 entries
NEW paper research 2h ago · arxiv-cs-ai

正則化中心化エンファティックTD学習の提案 Regularized Centered Emphatic Temporal Difference Learning

AI要約 強化学習における方策オフ評価の安定化を目的に、エンファティックTD学習を中心化と正則化により改良した手法を提案。分散の低減と収束性の向上を理論的・実験的に示し、関数近似下での学習を安定化させる。

EN This paper proposes a regularized and centered variant of Emphatic Temporal Difference learning for off-policy evaluation in reinforcement learning, aiming to reduce variance and improve convergence with function approximation through theoretical and empirical analysis.

arxiv.org
Regularized Centered Emphatic Temporal Difference Learning og