Transformer学習のスペクトル進化:過渡的圧縮波とQ/K-V非対称性 The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry
AI要約 本論文はTransformer学習中の重み行列のスペクトル動態を分析し、過渡的な圧縮波と持続的なスペクトル勾配の存在を示す。さらにQ/KとVの間に明確な非対称性があることを明らかにし、注意機構の役割分担を解釈する手がかりを提供する。
EN This paper analyzes the spectral dynamics of weight matrices during Transformer training, identifying transient compression waves and persistent spectral gradients, and reveals a clear Q/K vs. V asymmetry that sheds light on functional roles within attention.
og