括弧列Transformerにおけるデコード可能性と因果的利用の分離 Dissociating Decodability and Causal Use in Bracket-Sequence Transformers
AI要約 括弧列タスクで訓練したTransformerを用い、内部表現から情報がデコードできることと、その情報がモデルの予測に因果的に利用されていることが必ずしも一致しないことを示した研究。解釈可能性研究におけるプロービング手法の限界を指摘する。
EN This study uses bracket-sequence Transformers to demonstrate that information decodable from internal representations is not necessarily causally used by the model for predictions, highlighting limitations of probing-based interpretability methods.