HomeTags#reward-model

#reward-model page 1/1 · 1 total

TODAY 1 entries
NEW paper research 2h ago · arxiv-cs-lg

Themis: 多基準採点に対応する多言語コード報酬モデルの訓練 Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

AI要約 本論文では、コード生成における柔軟な多基準評価を実現する堅牢な多言語コード報酬モデル「Themis」を提案する。複数のプログラミング言語と評価観点に対応し、従来手法より高精度なスコアリングを可能にする訓練手法を示している。

EN The paper introduces Themis, a robust multilingual code reward model designed for flexible multi-criteria scoring across programming languages, offering improved evaluation accuracy for code generation tasks.

arxiv.org
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring og