大規模言語モデルにおける潜在活性化ステアリングによる文化的価値観アライメント Cultural Value Alignment Via Latent Activation Steering in Large Language Models
LLMが示す均質な文化的偏りを、世界価値観調査(WVS)を基準として潜在空間の操作で修正する手法を提案した研究。
English summary
- arXiv:2605.26365v1 Announce Type: new Abstract: Large Language Models (LLMs) often exhibit homogenized cultural perspectives.
- While the World Values Survey (WVS) provides a gold standard for mapping h
大規模言語モデル(LLM)は特定の文化的視点に偏りがちであり、多様な価値観を適切に反映しないという問題が指摘されている。本論文はこの課題に対し、モデルの潜在空間を直接操作する「活性化ステアリング」手法を用いて文化的価値観のアライメントを試みる。
評価基準として世界価値観調査(WVS)を活用し、異なる文化圏の価値観をモデルに反映させる精度を測定している。ファインチューニングなしに推論時の介入のみで文化的多様性を実現できる可能性を示唆しているが、詳細な実験結果や対象モデルについては原論文を参照されたい。
Large Language Models tend to reflect homogenized, often Western-centric cultural perspectives, limiting their usefulness across diverse global contexts. This paper tackles that problem by applying latent activation steering—directly intervening in a model's internal representations at inference time—to shift its expressed cultural values without requiring full fine-tuning.
The World Values Survey (WVS), a widely recognized cross-national dataset on human beliefs and values, serves as the gold-standard benchmark for evaluating alignment quality. The approach suggests that targeted manipulation of latent activations could allow a single model to better emulate culturally diverse viewpoints. Specific experimental results, model architectures tested, and steering vectors used are detailed in the full paper; readers should consult the source for precise claims and limitations.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。