0次選択から2次判定へ:組合せ強化でフロンティアLLMの構成的失敗を露呈 From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs
AI要約 本論文は、選択肢を提示する0次評価から、複数の主張を組み合わせて真偽を判定させる2次評価へと難度を高める「組合せ強化」手法を提案。最先端LLMが個別事実は把握しつつも、複合的な構成判断で系統的に誤る様子を示す。
EN The paper introduces a combinatorial hardening methodology that escalates evaluation from 0-order multiple choice to 2-order compositional judgments, exposing systematic failures of frontier LLMs at composing facts even when they know individual pieces correctly.