HomeTags#interpretability

#interpretability page 1/1 · 2 total

TODAY 2 entries
NEW paper research 7h ago · arxiv-cs-cl

共有された語彙タスク表現がLLMの行動的ばらつきを説明する Shared Lexical Task Representations Explain Behavioral Variability In LLMs

AI要約 LLMの応答ばらつきを、モデル内部の共有された語彙タスク表現の観点から分析した研究。タスクごとに形成される潜在表現が、出力の多様性や一貫性のパターンを説明できることを示している。

EN This research investigates how shared lexical task representations within LLMs account for behavioral variability, demonstrating that latent task encodings explain patterns of output diversity and consistency across prompts.

arxiv.org
Shared Lexical Task Representations Explain Behavioral Variability In LLMs og
NEW paper research 7h ago · arxiv-cs-cl

視覚言語モデルにおけるソースモダリティ監視 Source-Modality Monitoring in Vision-Language Models

AI要約 視覚言語モデルが情報の出所(画像かテキストか)をどの程度区別できるかを検証した研究。モデル内部表現を解析し、モダリティ起源の追跡能力やその限界を明らかにし、幻覚や誤帰属の抑制に向けた示唆を提示する。

EN This paper investigates whether vision-language models can monitor the source modality (image vs. text) of information they process, analyzing internal representations to reveal the models' ability and limits in tracking modality provenance, with implications for hallucination mitigation.

arxiv.org