HomeTags#dpo

#dpo page 1/1 · 1 total

TODAY 1 entries
NEW paper research 2h ago · arxiv-cs-ai

TUR-DPO: トポロジーと不確実性を考慮した直接選好最適化 TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

AI要約 本論文は、選好データのトポロジー構造と不確実性を取り込んだ新しい直接選好最適化(DPO)手法TUR-DPOを提案する。従来のDPOが見落としがちな選好の幾何学的関係と信頼度を活用し、より頑健な言語モデルアラインメントを実現する。

EN The paper proposes TUR-DPO, a Direct Preference Optimization variant that incorporates topological structure and uncertainty estimation of preference data to achieve more robust language model alignment compared to standard DPO.

arxiv.org
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization og