HomeTags#dpo

Tag timeline

#dpo 2 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 2
Showing 2
Page 1/1
Updated 1h ago

Entries page 1/1 · 2 total

Wed, May 27 1 entries
paper research 3w ago · arxiv-cs-cl

CroCo: 自己生成文を用いたクロスリンガル対照的選好チューニング CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 大規模言語モデルの自己生成応答に対してクロスリンガルな対照的選好学習を適用し、多言語性能を向上させる手法CroCoを提案。

EN arXiv:2605.26293v1 Announce Type: new Abstract: Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves down

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations og fallback
Tue, Mar 31 1 entries
blog local-llm 2mo ago · huggingface-blog

TRL v1.0公開: 進化に追従するポストトレーニングライブラリ TRL v1.0: Post-Training Library Built to Move with the Field

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 3月31日 Published Mar 31

AI要約 Hugging FaceがLLMポストトレーニング用ライブラリTRLのv1.0を公開。SFT/DPO/GRPOなど主要手法を統合し、APIの安定化、vLLM連携、マルチノード分散学習、VLM対応強化など、実運用に耐える成熟版に到達した。

EN TRL v1.0: Post-Training Library Built to Move with the Field

fallback