HomeTags#transformer

#transformer page 1/1 · 2 total

TODAY 2 entries
NEW paper research 3h ago · arxiv-cs-lg

Transformer学習のスペクトル進化:過渡的圧縮波とQ/K-V非対称性 The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

AI要約 本論文はTransformer学習中の重み行列のスペクトル動態を分析し、過渡的な圧縮波と持続的なスペクトル勾配の存在を示す。さらにQ/KとVの間に明確な非対称性があることを明らかにし、注意機構の役割分担を解釈する手がかりを提供する。

EN This paper analyzes the spectral dynamics of weight matrices during Transformer training, identifying transient compression waves and persistent spectral gradients, and reveals a clear Q/K vs. V asymmetry that sheds light on functional roles within attention.

arxiv.org
The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry og
NEW paper research 3h ago · arxiv-cs-lg

確率的KVルーティング: 適応的な層方向キャッシュ共有の実現 Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

AI要約 Transformerの推論コスト削減のため、層間でKVキャッシュを共有する新手法を提案。確率的ルーティングにより、各トークンが動的に異なる層のキャッシュを参照可能にし、適応的な深さ方向の共有を実現する。

EN Proposes Stochastic KV Routing, a method enabling adaptive depth-wise KV cache sharing across Transformer layers. Tokens probabilistically route to different layers' caches, reducing inference costs while maintaining model quality.

arxiv.org