動的敵対的ファインチューニングが拒否の幾何構造を再編成する Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
AI要約 本論文は、動的な敵対的ファインチューニングがLLMにおける拒否挙動の内部幾何構造をどのように再編成するかを分析する。拒否方向の表現が学習過程で変化し、ジェイルブレイク耐性向上に寄与するメカニズムを示す。
EN This paper investigates how dynamic adversarial fine-tuning reshapes the internal refusal geometry of LLMs, showing that refusal direction representations are reorganized during training to improve robustness against jailbreak attacks.