TUR-DPO: トポロジーと不確実性を考慮した直接選好最適化 TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
AI要約 本論文は、選好データのトポロジー構造と不確実性を取り込んだ新しい直接選好最適化(DPO)手法TUR-DPOを提案する。従来のDPOが見落としがちな選好の幾何学的関係と信頼度を活用し、より頑健な言語モデルアラインメントを実現する。
EN The paper proposes TUR-DPO, a Direct Preference Optimization variant that incorporates topological structure and uncertainty estimation of preference data to achieve more robust language model alignment compared to standard DPO.
og