HomeTags#benchmarks

#benchmarks page 1/1 · 2 total

Tue, May 12 2 entries
paper research 2d ago · arxiv-cs-cl

0次選択から2次判定へ:組合せ強化でフロンティアLLMの構成的失敗を露呈 From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs

AI要約 本論文は、選択肢を提示する0次評価から、複数の主張を組み合わせて真偽を判定させる2次評価へと難度を高める「組合せ強化」手法を提案。最先端LLMが個別事実は把握しつつも、複合的な構成判断で系統的に誤る様子を示す。

EN The paper introduces a combinatorial hardening methodology that escalates evaluation from 0-order multiple choice to 2-order compositional judgments, exposing systematic failures of frontier LLMs at composing facts even when they know individual pieces correctly.

arxiv.org
paper research 2d ago · arxiv-cs-se

統計的崖の縁に立つComputer Use エージェント評価の落とし穴 Computer Use at the Edge of the Statistical Precipice

AI要約 本論文はComputer Useエージェントのベンチマーク評価における統計的信頼性の問題を指摘し、少数サンプルや高分散な実行結果から導かれるスコア比較がいかに脆いかを論じる。著者らは信頼区間の併記や評価設計の改善を提言している。

EN This paper examines the statistical fragility of Computer Use agent benchmarks, arguing that small sample sizes and high variance make leaderboard comparisons unreliable, and proposes confidence-interval reporting and better evaluation protocols.

arxiv.org
Computer Use at the Edge of the Statistical Precipice og