統一的情報理論目的によるKVキャッシュ削減の再考 Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective
AI要約 本論文は、LLMのKVキャッシュ削減手法を統一的な情報理論的目的関数の観点から再定式化する。既存手法を共通枠組みで分析し、注意情報の保持を最大化する新たな削減戦略を提案。長文脈推論におけるメモリ効率と性能の両立を実現する。
EN This paper reformulates KV cache eviction for LLMs through a unified information-theoretic objective, analyzing existing methods within a common framework and proposing a new eviction strategy that maximizes retained attention information for efficient long-context inference.
og