パラメータ動態からリスク評価へ:LLMファインチューニングにおけるサンプル単位の安全性劣化の定量化 From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
AI要約 本研究は、LLMのファインチューニング時に各学習サンプルが安全性をどの程度劣化させるかを定量化する手法を提案する。パラメータ更新の動態を解析しサンプル単位のリスクスコアを算出することで、有害な学習データを事前に特定可能にする。
EN This paper proposes a method to quantify how individual training samples degrade safety during LLM fine-tuning. By analyzing parameter update dynamics, it derives sample-level risk scores that help identify harmful training data in advance.