平均プールのコサイン類似度は長さ不変ではない:長さ不変な代替指標の理論と実証 Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative
AI要約 本論文は、トークン埋め込みを平均プールしてコサイン類似度を計算する一般的手法が、入力長に依存してバイアスを生じることを理論的に示す。著者らは長さ不変な代替指標を提案し、複数ドメインの実験で有効性を確認した。
EN This paper proves that the common practice of computing cosine similarity over mean-pooled token embeddings is biased by sequence length, and proposes a length-invariant alternative validated across multiple domains.