FACTS Benchmark Suite: LLMの事実性を体系的に評価する新基準 FACTS Benchmark Suite: Systematically evaluating the factuality of large language models
重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 12月9日 Published Dec 9
AI要約 Google DeepMindがLLMの事実性を体系的に評価するベンチマーク群「FACTS Benchmark Suite」を発表した。長文応答の事実性や根拠付けを測るFACTS Groundingに加え、新たな評価軸を追加し、モデルの幻覚問題を多角的に検証する枠組みを提供する。
EN Systematically evaluating the factuality of large language models with the FACTS Benchmark Suite.