HomeTags#hallucination

Tag timeline

#hallucination 3 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 3
Showing 3
Page 1/1
Updated 1h ago

Entries page 1/1 · 3 total

Fri, May 29 1 entries
blog tech-news 3w ago · ars-technica

明示的な警告後もLLMは誤った情報を信じ込む——研究が示すバイアスの根深さ LLMs believe false statements even after explicit warnings that they're false

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Industry & Policy Medium priority · technical post · Industry & Policy 公開 5月29日 Published May 29

AI要約 ファインチューニング実験により、LLMは虚偽と明示されても誤情報を真実として自信を持って出力するバイアスがあることが判明した。

EN Fine-tuning tests show "bias... toward confidently representing the claims as true."

LLMs believe false statements even after explicit warnings that they're false og fallback
Wed, May 27 1 entries
paper research 3w ago · arxiv-cs-cl

LLMが構造化知識でハルシネーションを起こす理由:線形化表現上の推論メカニズム分析 Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 グラフや表などの構造化知識を線形化してLLMに入力する際にハルシネーションが生じるメカニズムを機械的に分析した研究論文。

EN arXiv:2605.26362v1 Announce Type: new Abstract: In many reasoning tasks, large language models (LLMs) rely on structured external knowledge, such as graphs and tables, which is typically linearized in

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations og fallback
Tue, Dec 9 1 entries
NEW blog gemini 6mo ago · google-deepmind

FACTS Benchmark Suite: LLMの事実性を体系的に評価する新基準 FACTS Benchmark Suite: Systematically evaluating the factuality of large language models

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 12月9日 Published Dec 9

AI要約 Google DeepMindがLLMの事実性を体系的に評価するベンチマーク群「FACTS Benchmark Suite」を発表した。長文応答の事実性や根拠付けを測るFACTS Groundingに加え、新たな評価軸を追加し、モデルの幻覚問題を多角的に検証する枠組みを提供する。

EN Systematically evaluating the factuality of large language models with the FACTS Benchmark Suite.

FACTS Benchmark Suite: Systematically evaluating the factuality of large language models media fallback