Category detail

Papers / Benchmarks page 2/3

Papers / Benchmarks に分類された更新の続きです。ページを移動してもカテゴリ文脈と主要指標を維持します。

Total 90
Showing 30
Last 7d 0
Vs prev 7d -100%

Research navigation

arXiv 論文は専用ページで分離表示しています

件数の多い arXiv cs.AI / cs.CL / cs.SE / cs.LG は、通常のカテゴリ閲覧とは別に専用レーンで確認できます。

arXiv Papers

All articles page 2/3 · 90 total

新着順
Thu, May 28 7 entries
paper research 3w ago · arxiv-cs-ai

Laguna M.1/XS.2 テクニカルレポート Laguna M.1/XS.2 Technical Report

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 長期的なエージェント型コーディング向けに設計されたMixture-of-Experts基盤モデル、Laguna M.1(2258億パラメータ)とXS.2を発表。

EN arXiv:2605.27605v1 Announce Type: new Abstract: We present Laguna M.1 and Laguna XS.2, two Mixture-of-Experts foundation models built for long-horizon, agentic coding: M.1 has $225.8$B total parameter

Laguna M.1/XS.2 Technical Report og fallback
paper research 3w ago · arxiv-cs-ai

動的に変化する規範を用いた推論と計画 Reasoning and Planning with Dynamically Changing Norms

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 AIエージェントが人間の規範をリアルタイムで把握し、計画に反映させる手法を提案した研究論文。

EN arXiv:2605.27622v1 Announce Type: new Abstract: To safely interact with humans, AI agents must both know our norms and consider them during planning. However, such norm-guided planning has been less e

Reasoning and Planning with Dynamically Changing Norms og fallback
paper research 3w ago · arxiv-cs-se

ベンチマークだけでは不十分:本番システムにおけるエージェント型モデルのランタイム評価フレームワーク「RAMP」 Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMエージェントの本番運用向けランタイム評価フレームワーク「RAMP」を提案。既存ベンチマークの限界を指摘し、実環境での継続的アセスメントを可能にする。

EN arXiv:2605.27492v1 Announce Type: new Abstract: LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodologies remain l

fallback
paper research 3w ago · arxiv-cs-se

LLMによるWebアクセシビリティ修復:検出・修正・コストの実証研究 LLM Based Web Accessibility Repair: An Empirical Study of Detection, Remediation, and Cost

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMを用いたWebアクセシビリティ問題の自動検出・修正を実証評価し、精度とコストのトレードオフを分析した研究論文。

EN arXiv:2605.27716v1 Announce Type: new Abstract: Ensuring web accessibility at scale remains challenging because rule-based tools provide limited coverage while manual remediation is costly and error-p

fallback
paper research 3w ago · arxiv-cs-se

Tool Forge: 統治されたエージェント実行のための検証付きツールチェーン Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMエージェントがAPI呼び出しやファイル操作を安全に行うための検証機構を組み込んだツールチェーン「Tool Forge」を提案する研究論文。

EN arXiv:2605.28000v1 Announce Type: new Abstract: Large language model agents are increasingly expected to perform operational work: calling APIs, manipulating files, assembling workflows, and acting in

fallback
paper research 3w ago · arxiv-cs-se

DeltaMCP: MCPサーバー向けスペック対応変換による差分再生成 DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMとModel Context Protocol(MCP)の普及を背景に、APIとのインタラクションを効率化する差分再生成手法DeltaMCPを提案した研究論文。

EN arXiv:2605.28148v1 Announce Type: new Abstract: The rapid development of LLMs coupled with the introduction of Model Context Protocol (MCP) has revolutionized how intelligent agents interact with APIs

fallback
paper research 3w ago · arxiv-cs-se

GUIエージェントによる継続的なゲーム生成 GUI Agents for Continual Game Generation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 コード生成だけでなく実際にプレイ可能なゲームを作るため、GUIエージェントを活用した継続的ゲーム生成手法を提案する研究。

EN arXiv:2605.28258v1 Announce Type: new Abstract: Generating a game is not the same as making one that can be played. Despite advances in code generation, existing approaches treat game generation as on

fallback
Wed, May 27 23 entries
paper research 3w ago · arxiv-cs-cl

Self-Verified Distillation:言語モデルは密かに自分自身の合成データパイプラインである Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 外部教師なしでLLM自身がラベルなしプロンプトから合成データを生成・自己検証し、さらに性能を向上させる蒸留手法を提案した研究。

EN arXiv:2605.26132v1 Announce Type: new Abstract: Can post-trained large language models (LLMs) further improve themselves using only unlabeled prompts, without external teachers or feedback from tools?

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline og fallback
paper research 3w ago · arxiv-cs-cl

大規模言語モデルにおける事前学習データ露出:メンバーシップ推定・データ汚染・セキュリティへの影響に関するサーベイ Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMの事前学習データ露出問題を包括的に調査。メンバーシップ推定攻撃、データ汚染、セキュリティリスクを体系的に整理したサーベイ論文。

EN arXiv:2605.26133v1 Announce Type: new Abstract: Large Language Models (LLMs) have become the predominant paradigm in NLP, advancing both research and industry. As model sizes and pretraining data grow

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications og fallback
paper research 3w ago · arxiv-cs-cl

SPEAR: コード拡張型エージェント的プロンプト最適化 SPEAR: Code-Augmented Agentic Prompt Optimization

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 自動プロンプトエンジニアリングにコード生成を組み合わせ、オプティマイザ自体をエージェント的に改善するSPEARフレームワークを提案。

EN arXiv:2605.26275v1 Announce Type: new Abstract: Automatic prompt engineering (APE) rewrites prompts to improve downstream task performance, but existing APE loops treat the optimizer itself as a fixed

SPEAR: Code-Augmented Agentic Prompt Optimization og fallback
paper research 3w ago · arxiv-cs-cl

CroCo: 自己生成文を用いたクロスリンガル対照的選好チューニング CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 大規模言語モデルの自己生成応答に対してクロスリンガルな対照的選好学習を適用し、多言語性能を向上させる手法CroCoを提案。

EN arXiv:2605.26293v1 Announce Type: new Abstract: Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves down

CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations og fallback
paper research 3w ago · arxiv-cs-cl

The Daily Dose:放射線腫瘍学における臨床要約と治験識別のためのワークフロー統合LLM自動化 The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 放射線腫瘍学向けにLLMを活用した臨床要約・治験マッチングシステム「The Daily Dose」の設計と初期臨床評価を報告。

EN arXiv:2605.26346v1 Announce Type: new Abstract: Objective: To describe the design and early clinical evaluation of The Daily Dose (TDD), an LLM-driven, automated clinical summarization and clinical-tr

The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology og fallback
paper research 3w ago · arxiv-cs-cl

RICE-PO: 検索インタラクションを推論エージェントの信用シグナルに変換する手法 RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 言語エージェントの反復的な検索行動をクレジットシグナルとして活用し、推論能力を強化するRICE-POを提案した研究論文。

EN arXiv:2605.26352v1 Announce Type: new Abstract: Retrieval is increasingly moving from one-shot matching toward interactive reasoning, where language agents iteratively inspect evidence, reformulate qu

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents og fallback
paper research 3w ago · arxiv-cs-cl

検索拡張生成のためのIn-Context最適化:勾配降下法の視点 In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 In-context learningを暗黙的勾配降下と結びつけ、RAGの文脈選択を最適化フレームワークとして再定式化した研究。

EN arXiv:2605.26356v1 Announce Type: new Abstract: In-context learning has recently been linked to implicit gradient descent in linear self-attention models, suggesting that context can induce a forward-

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective og fallback
paper research 3w ago · arxiv-cs-cl

LLMが構造化知識でハルシネーションを起こす理由:線形化表現上の推論メカニズム分析 Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 グラフや表などの構造化知識を線形化してLLMに入力する際にハルシネーションが生じるメカニズムを機械的に分析した研究論文。

EN arXiv:2605.26362v1 Announce Type: new Abstract: In many reasoning tasks, large language models (LLMs) rely on structured external knowledge, such as graphs and tables, which is typically linearized in

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations og fallback
paper research 3w ago · arxiv-cs-cl

大規模言語モデルにおける潜在活性化ステアリングによる文化的価値観アライメント Cultural Value Alignment Via Latent Activation Steering in Large Language Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMが示す均質な文化的偏りを、世界価値観調査(WVS)を基準として潜在空間の操作で修正する手法を提案した研究。

EN arXiv:2605.26365v1 Announce Type: new Abstract: Large Language Models (LLMs) often exhibit homogenized cultural perspectives. While the World Values Survey (WVS) provides a gold standard for mapping h

Cultural Value Alignment Via Latent Activation Steering in Large Language Models og fallback
paper research 3w ago · arxiv-cs-cl

アノテーター立場性をシグナルとして活用:反自閉症的エイブリズム検出のための心理測定的重み付け Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMが意思決定に使われる中、自閉症者への差別的言語検出にアノテーターの属性・立場を心理測定的に重み付けする手法を提案した研究。

EN arXiv:2605.26397v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly used in decision-making tasks where they can amplify or suppress perspectives, raising concerns in high-st

Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection og fallback
paper research 3w ago · arxiv-cs-cl

ジャストインタイム適応フィードバックに向けて:知識基盤LLMによる学習支援 Towards Just-in-Time Adaptive Feedback: Enhancing Student Learning via Knowledge-Grounded LLM

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMを活用し、学習状況に応じたタイムリーな適応フィードバックを生成する教育支援手法を提案した研究論文。

EN arXiv:2605.26405v1 Announce Type: new Abstract: Educational interventions are effective tools for enhancing student learning. While Large Language Models (LLMs) allow for generating adaptive feedback

Towards Just-in-Time Adaptive Feedback: Enhancing Student Learning via Knowledge-Grounded LLM og fallback
paper research 3w ago · arxiv-cs-ai

LLMは自己内省できるか?現実的な検証 Can LLMs Introspect? A Reality Check

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 大規模言語モデルが自身の内部状態を検出・報告できるかを批判的に検証した論文。先行研究の主張に異議を唱える。

EN A critical examination of whether LLMs can genuinely detect and report their own internal states, challenging prior studies that claimed they can.

Can LLMs Introspect? A Reality Check og fallback
paper research 3w ago · arxiv-cs-ai

エージェントメモリはデータベースか?長期AIエージェントメモリのデータ基盤を再考する Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 長期稼働AIエージェントの永続的メモリをデータベース視点から再考し、設計原則を論じたarXiv論文。

EN An arXiv paper rethinking the data foundations of long-term AI agent memory, examining whether database concepts apply to persistent agent memory systems.

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory og fallback
paper research 3w ago · arxiv-cs-ai

長期的なユーザーインタラクションを通じた具身化マルチモーダルLLMエージェントのパーソナライズ Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 物理環境で動作するMLLMベースの具身化エージェントに長期ユーザー履歴を活用したパーソナライズ機能を組み込む研究。

EN A research paper proposing personalization methods for MLLM-based embodied agents that adapt to individual users over extended interaction histories in physical environments.

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions og fallback
paper research 3w ago · arxiv-cs-ai

あなたのエージェントも老いている:デプロイ済みシステムのエージェント寿命エンジニアリング Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 長期稼働するAIエージェントは初期化直後のモデルと同様に評価されがちだが、本論文はその問題を「エージェント老化」として体系化し対策を提案する。

EN This paper argues that long-lived deployed AI agents degrade over time yet are still evaluated as if freshly initialized, and proposes a framework for agent lifespan engineering.

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems og fallback
paper research 3w ago · arxiv-cs-ai

科学分野におけるエージェント型AIの実験的研究 Experiments in Agentic AI for Science

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 科学的ワークフローへの自律型エージェントAI導入に向けた2つの新フレームワークを提案。ローカル/リモートのハイブリッド構成を活用。

EN This paper introduces two novel frameworks for autonomous agentic AI in scientific workflows, leveraging a hybrid Local Body, Remote architecture to support research automation.

Experiments in Agentic AI for Science og fallback
paper research 3w ago · arxiv-cs-ai

Anchor: エージェントベンチマーク生成におけるアーティファクトドリフトの軽減 Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 AIエージェント向けベンチマーク生成時に生じるアーティファクトドリフトを軽減する手法「Anchor」を提案した研究論文。

EN Anchor is a proposed method to reduce artifact drift when generating benchmarks for AI agents tackling long-horizon enterprise tasks.

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation og fallback
paper research 3w ago · arxiv-cs-ai

OmniToM: 明示的な信念モデリングによるLLMの心の理論ベンチマーク OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMにおける「心の理論」を明示的な信念モデリングで評価する新ベンチマーク「OmniToM」を提案した研究論文。

EN OmniToM is a new benchmark for evaluating Theory of Mind in LLMs, moving beyond end-to-end tasks by requiring explicit belief modeling across knowledge, intentions, and emotions.

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling og fallback
paper research 3w ago · arxiv-cs-ai

JobBench: エージェントの仕事を人間の意志に合わせる JobBench: Aligning Agent Work With Human Will

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 職業AIエージェントを経済的価値だけでなく人間の意志との整合性で評価する新ベンチマーク「JobBench」を提案。

EN JobBench is a new benchmark for occupational AI agents that goes beyond economic replacement metrics to evaluate alignment with human will and intent.

JobBench: Aligning Agent Work With Human Will og fallback
paper research 3w ago · arxiv-cs-ai

仮想実験室計画のためのLLM生成手続き知識における不確実性の管理 Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMが生成する実験手順知識の不確実性を管理し、教育用仮想実験室をよりスケーラブルかつ適応的にする手法を提案した研究論文。

EN A research paper proposing methods to manage uncertainty in LLM-generated procedural knowledge, aiming to make educational virtual laboratories more scalable and adaptive.

Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning og fallback
paper research 3w ago · arxiv-cs-ai

ScientistOne: Chain-of-Evidenceによる人間レベルの自律研究を目指して ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 自律研究エージェントの検証可能性の失敗を指摘し、証拠の連鎖(Chain-of-Evidence)で信頼性を高める新フレームワークを提案。

EN ScientistOne proposes a Chain-of-Evidence framework to address verifiability failures in autonomous research agents, pushing toward human-level scientific reliability.

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence og fallback
paper research 3w ago · arxiv-cs-ai

大規模マルチモーダルモデルにおけるクリエイティブ物理知能の進展 Advancing Creative Physical Intelligence in Large Multimodal Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 大規模マルチモーダルモデル(LMM)の知覚・推論能力が、創造的な物理的タスクへ汎化できるかを検討した研究論文。

EN A research paper examining whether perception and reasoning capabilities of large multimodal models generalize to creative physical intelligence tasks.

Advancing Creative Physical Intelligence in Large Multimodal Models og fallback
paper research 3w ago · arxiv-cs-se

VISTA: ビジュアル仕様からWebアプリ生成を評価するエンドツーエンドベンチマーク VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMエージェントがビジュアル仕様からWebアプリを生成する能力を評価するベンチマーク「VISTA」を提案。

EN VISTA is a new benchmark for evaluating LLM-based agents on end-to-end web-app generation from visual specifications.

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents og fallback