CroCo: 自己生成文を用いたクロスリンガル対照的選好チューニング CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations
大規模言語モデルの自己生成応答に対してクロスリンガルな対照的選好学習を適用し、多言語性能を向上させる手法CroCoを提案。
English summary
- arXiv:2605.26293v1 Announce Type: new Abstract: Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves down
本論文はarXiv(arXiv:2605.26293)で公開された研究で、大規模言語モデル(LLM)の自己生成応答間に報酬スコアで制御された対照性を設けることが性能向上につながるという先行研究の知見を、多言語・クロスリンガルな設定に拡張したものです。
手法の核心は、異なる言語間で生成された応答を対照ペアとして活用する選好チューニングフレームワークにあると推察されます。これにより、言語をまたいだ知識転移や一貫性の向上が期待されます。詳細な実験設定・データセット・評価指標については原論文を参照してください。
多言語LLMの整合性改善という観点から重要な研究であり、低リソース言語への応用可能性にも注目が集まると考えられます。
CroCo (arXiv:2605.26293) extends contrastive preference tuning to a cross-lingual setting. Prior work has shown that introducing controlled contrastiveness between self-generated responses from large language models—guided by reward scores—improves model alignment. CroCo builds on this foundation by incorporating cross-lingual signal into the preference learning process.
The approach appears to leverage self-generated outputs across multiple languages as contrastive pairs, potentially enabling more consistent multilingual behavior without requiring large amounts of human-annotated multilingual preference data. This framing suggests applicability to low-resource language scenarios, though the extent of coverage and specific benchmarks used should be verified in the full paper.
Overall, this work addresses a meaningful gap in multilingual LLM alignment research. Readers interested in the experimental details, datasets, baseline comparisons, and evaluation results are encouraged to consult the original paper directly.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。