HomeTags#frontier-models

#frontier-models page 1/1 · 2 total

Tue, May 12 2 entries
paper research 2d ago · arxiv-cs-cl

0次選択から2次判定へ:組合せ強化でフロンティアLLMの構成的失敗を露呈 From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs

AI要約 本論文は、選択肢を提示する0次評価から、複数の主張を組み合わせて真偽を判定させる2次評価へと難度を高める「組合せ強化」手法を提案。最先端LLMが個別事実は把握しつつも、複合的な構成判断で系統的に誤る様子を示す。

EN The paper introduces a combinatorial hardening methodology that escalates evaluation from 0-order multiple choice to 2-order compositional judgments, exposing systematic failures of frontier LLMs at composing facts even when they know individual pieces correctly.

arxiv.org
paper research 2d ago · arxiv-cs-se

NeurIPSはフロンティアAI安全性主張に再現性基準を課すべき NeurIPS Should Require Reproducibility Standards for Frontier AI Safety Claims

AI要約 本論文は、フロンティアAIの安全性に関する主張について、NeurIPSが再現性基準を必須化すべきだと提言する。現状の査読では検証が不十分であり、評価手法・データ・コードの開示を標準化する必要性を論じる。

EN This paper argues that NeurIPS should mandate reproducibility standards for frontier AI safety claims, contending that current peer review insufficiently verifies such claims and that disclosure of evaluation methods, data, and code should be standardized.

arxiv.org
NeurIPS Should Require Reproducibility Standards for Frontier AI Safety Claims og