パラメータ動態からリスク評価へ:LLMファインチューニングにおけるサンプル単位の安全性劣化の定量化 From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
AI 3 行サマリ
- 本研究は、LLMのファインチューニング時に各学習サンプルが安全性をどの程度劣化させるかを定量化する手法を提案する。
- パラメータ更新の動態を解析しサンプル単位のリスクスコアを算出することで、有害な学習データを事前に特定可能にする。
English summary
- This paper proposes a method to quantify how individual training samples degrade safety during LLM fine-tuning.
- By analyzing parameter update dynamics, it derives sample-level risk scores that help identify harmful training data in advance.
※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。
元記事を読む
arxiv.org
本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。