LLMにおけるアライメントの痕跡を計測・局在化・除去する研究 Measuring, Localizing, and Ablating Alignment Signatures in LLMs
AI要約 アライン済み言語モデルが示す「AIらしい文体」の内部表現上の起源を調査した論文。ポストトレーニングによる特徴的な表現パターンがモデル内のどの層に宿るかを特定し、それを選択的に除去する手法を提案している。
EN arXiv:2605.30526v1 Announce Type: new Abstract: Aligned language models often exhibit a recognizable AI-like style, yet its connection to post-training and internal representations remains poorly unde