HomeTags#interpretability

Tag timeline

#interpretability 7 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 7
Showing 7
Page 1/1
Updated 1h ago

Entries page 1/1 · 7 total

Mon, Jun 1 2 entries
paper research 2w ago · arxiv-cs-lg

LLMが「一貫して嘘をつく」ことを学習するとき:合成欺瞞の線形表現に関するマルチモデル研究 When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 LLMが内部では正確な表現を保ちながら意図的に誤った出力を生成する「欺瞞的アライメント」を、複数モデルにわたって線形表現の観点から分析した研究。モデルが合成的な欺瞞をどのように学習・符号化するかを明らかにしようとしている。

EN arXiv:2605.30381v1 Announce Type: new Abstract: Deceptive alignment, in which models maintain accurate internal representations while deliberately producing false outputs, remains a central challenge

fallback
paper research 2w ago · arxiv-cs-lg

LLMにおけるアライメントの痕跡を計測・局在化・除去する研究 Measuring, Localizing, and Ablating Alignment Signatures in LLMs

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 アライン済み言語モデルが示す「AIらしい文体」の内部表現上の起源を調査した論文。ポストトレーニングによる特徴的な表現パターンがモデル内のどの層に宿るかを特定し、それを選択的に除去する手法を提案している。

EN arXiv:2605.30526v1 Announce Type: new Abstract: Aligned language models often exhibit a recognizable AI-like style, yet its connection to post-training and internal representations remains poorly unde

fallback
Wed, May 27 1 entries
paper research 3w ago · arxiv-cs-ai

LLMは自己内省できるか?現実的な検証 Can LLMs Introspect? A Reality Check

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 大規模言語モデルが自身の内部状態を検出・報告できるかを批判的に検証した論文。先行研究の主張に異議を唱える。

EN A critical examination of whether LLMs can genuinely detect and report their own internal states, challenging prior studies that claimed they can.

Can LLMs Introspect? A Reality Check og fallback
Mon, May 25 1 entries
paper research 3w ago · arxiv-cs-lg

残差から理由へ:表形式データにおけるLLM誘導メカニズム推論 From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 LLMを活用して表形式データの統計的残差から因果メカニズムを推論する手法を提案。予測と理解の両立を目指す研究。

EN A new method uses LLMs to infer causal mechanisms from model residuals in tabular data, aiming to bridge predictive accuracy and scientific interpretability.

fallback
Fri, May 8 1 entries
blog claude 1mo ago · youtube-anthropic

Anthropic、Claudeの思考を言語化する解釈可能性研究を公開 Translating Claude’s thoughts into language

通常 Normal 深掘り候補 · 技術記事 · Claude / Claude Code Deep-dive candidate · technical post · Claude / Claude Code 公開 5月8日 Published May 8

AI要約 Anthropicが、Claudeの内部表現を人間の言語に翻訳する解釈可能性研究の動画を公開。モデルが推論中に何を「考えて」いるかを可視化し、AIの透明性と安全性向上を目指す取り組みを紹介している。

EN Translating Claude’s thoughts into language

fallback
Fri, Jan 9 1 entries
blog claude 5mo ago · youtube-anthropic

AIの限定的な自己認識:Anthropicが指摘する内省の限界 AI's limited self-knowledge

通常 Normal 深掘り候補 · 技術記事 · Claude / Claude Code Deep-dive candidate · technical post · Claude / Claude Code 公開 1月9日 Published Jan 9

AI要約 Anthropicの短編動画では、AIモデルが自身の内部状態をどこまで正確に把握できるかという「自己認識」の限界が論じられている。モデルの自己説明は実際の処理過程と一致しない可能性があり、解釈可能性研究の重要性が改めて示唆される。

EN AI's limited self-knowledge

fallback
Tue, Dec 16 1 entries
NEW blog gemini 6mo ago · google-deepmind

Gemma Scope 2公開、AI安全研究で言語モデル挙動の解明を促進 Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 12月16日 Published Dec 16

AI要約 Google DeepMindはGemma Scope 2を公開し、Gemma系言語モデルの内部動作を解析するためのスパースオートエンコーダ群を提供。AI安全コミュニティが複雑なモデル挙動の解釈可能性研究を深化させる土台となる。

EN Open interpretability tools for language models are now available across the entire Gemma 3 family with the release of Gemma Scope 2.

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior media fallback