合意の罠を超えて:ルール準拠AI評価のための防御可能性シグナル Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
AI要約 ルール準拠AIの評価において、評価者間の単純な一致率に依存する従来手法の限界を指摘。代替として、判断の根拠を示す「防御可能性シグナル」を提案し、AIの規範的判断の質をより堅牢に評価する枠組みを示す。
EN This paper critiques the reliance on inter-rater agreement for evaluating rule-governed AI systems and proposes 'defensibility signals' as an alternative framework, focusing on the justifiability of judgments rather than mere consensus.
arxiv.org →
og