Category detail

Papers / Benchmarks page 3/3

Papers / Benchmarks に分類された更新の続きです。ページを移動してもカテゴリ文脈と主要指標を維持します。

Total 90
Showing 30
Last 7d 0
Vs prev 7d -100%

Research navigation

arXiv 論文は専用ページで分離表示しています

件数の多い arXiv cs.AI / cs.CL / cs.SE / cs.LG は、通常のカテゴリ閲覧とは別に専用レーンで確認できます。

arXiv Papers

All articles page 3/3 · 90 total

新着順
Wed, May 27 8 entries
paper research 3w ago · arxiv-cs-se

ツールスキーマ圧縮により制約されたコンテキスト予算下でのAgentic RAGを実現 Tool-Schema Compression Enables Agentic RAG Under Constrained Context Budgets

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 多数のツール定義を持つAgentic RAGシステムで、ツールスキーマの圧縮によりコンテキスト制約問題を解決する手法を提案。

EN A new approach compresses tool schemas in agentic RAG systems to resolve the resource conflict between tool definitions and available context budget in LLMs.

Tool-Schema Compression Enables Agentic RAG Under Constrained Context Budgets og fallback
paper research 3w ago · arxiv-cs-se

普遍的な崖とデザイン指紋:LLMオーケストレーション下のクロスセクション欠陥検出 A Universal Cliff and a Design Fingerprint: Cross-Section Defect Detection Under LLM Orchestration

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMが複数のワーカーエージェントに処理を分散する際に生じるクロスセクション欠陥を検出する研究。設計上の「指紋」パターンと性能崖の存在を報告。

EN This paper investigates defect detection across the invisible orchestration layer of production LLM systems, identifying a universal performance cliff and a recurring design fingerprint in multi-agent architectures.

fallback
paper research 3w ago · arxiv-cs-se

RepoMirage: 摂動を用いたコードエージェントのリポジトリコンテキスト推論の検証 RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 コードエージェントがリポジトリレベルのベンチマークで本当にコンテキストを理解しているか、摂動を加えて検証する研究。

EN RepoMirage probes whether code agents genuinely reason about repository context or exploit shortcuts, using controlled perturbations on repository-level benchmarks.

fallback
paper research 3w ago · arxiv-cs-se

SetupX: LLMエージェントはコードリポジトリのセットアップ失敗から学習できるか? SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 リポジトリの実行環境構成を正しく行うベンチマーク SetupX を提案し、LLMエージェントが過去の失敗から学習できるかを検証した研究。

EN SetupX is a benchmark studying whether LLM agents can learn from past failures to correctly configure execution environments for code repositories.

fallback
paper research 3w ago · arxiv-cs-se

Verus-SpecGym: 仕様の自動形式化を評価するエージェント環境 Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 AIコーディングエージェントの出力の正しさを保証するため、仕様の自動形式化を評価するベンチマーク環境Verus-SpecGymを提案した研究論文。

EN Verus-SpecGym is a new agentic benchmark environment for evaluating how well AI agents can autoformalize software specifications, addressing correctness challenges in AI-generated code.

fallback
paper research 3w ago · arxiv-cs-se

構造的カバレッジ基準によるエージェントワークフローのテスト Testing Agentic Workflows with Structural Coverage Criteria

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 マルチエージェントシステムのワークフロー構造(エージェント・ツール・委譲パス等)を活用した新しいテスト手法を提案する研究論文。

EN A research paper proposing structural coverage criteria for testing multi-agent workflows, leveraging explicit structures such as agents, tools, access rules, and delegation paths.

fallback
paper research 3w ago · arxiv-cs-se

FuzzPilot: カバレッジ停滞をトリガーとする構造化テキストファジングのレシピ検証システム FuzzPilot: Plateau-Triggered Recipe Validation for Structured Text Fuzzing

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 FuzzPilotはAFL++向けコントローラで、カバレッジが停滞した際にコーパスをスナップショットし、高コストな推論をミューテーションのホットパスから分離する手法を提案。

EN FuzzPilot is an AFL++ controller that defers expensive reasoning to coverage-plateau events, snapshotting the corpus and validating mutation recipes without blocking the hot path.

fallback
paper research 3w ago · arxiv-cs-se

TrajAudit: エージェント型コーディングシステムの障害自動診断 TrajAudit: Automated Failure Diagnosis for Agentic Coding Systems

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 バグ修正などを行うエージェント型AIシステムの失敗原因を自動診断するフレームワーク「TrajAudit」を提案した研究論文。

EN TrajAudit is a proposed framework for automated failure diagnosis in agentic coding systems such as AI-driven bug fixers, helping explain why tasks go wrong.

fallback
Tue, May 26 5 entries
paper research 3w ago · arxiv-cs-cl

Raon-Speech テクニカルレポート Raon-Speech Technical Report

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約 英語・韓国語に対応した90億パラメータの音声言語モデル「Raon-Speech」の技術報告。音声理解・応答・生成で高性能を達成。

EN Raon-Speech is a top-performing 9B-parameter speech language model supporting English and Korean speech understanding, answering, and generation tasks.

Raon-Speech Technical Report og fallback
paper research 3w ago · arxiv-cs-cl

科学的仮説の自動生成のためのマルチペルソナ討論システム Multi-Persona Debate System for Automated Scientific Hypothesis Generation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約 断片的な知識を統合して科学的仮説を自動生成するマルチペルソナ討論フレームワークをarXivで発表。

EN A multi-persona debate system is proposed to automate scientific hypothesis generation by synthesizing fragmented knowledge into actionable research directions.

Multi-Persona Debate System for Automated Scientific Hypothesis Generation og fallback
paper research 3w ago · arxiv-cs-ai

大規模言語モデルにおける信頼度キャリブレーション Confidence Calibration in Large Language Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約 LLMの信頼度キャリブレーションを多様なタスクで調査した事前登録済み研究。モデルの自信度と実際の正確さの整合性を検証。

EN A preregistered study investigates how well large language models calibrate their expressed confidence across diverse tasks, examining alignment between stated certainty and actual accuracy.

Confidence Calibration in Large Language Models og fallback
paper research 3w ago · arxiv-cs-ai

どれだけ考えれば十分か?LLM推論における冗長性の定量化と理解 How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約 LLMの長い思考チェーンに含まれる冗長性を定量化し、レイテンシ・GPU時間・エネルギーコストを削減する手法を研究した論文。

EN A research paper quantifying redundancy in LLM chain-of-thought reasoning, aiming to reduce latency, GPU time, and energy costs without sacrificing accuracy.

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning og fallback
paper research 3w ago · arxiv-cs-ai

LLMを活用したエージェントワークフローの信頼性設計:レイテンシ・信頼性・コストのトレードオフ最適化 Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約 複数のLLMエージェントが連携するワークフローにおける、レイテンシ・信頼性・コストの三者トレードオフを最適化する設計手法を提案した研究論文。

EN A research paper proposing methods to optimize latency, reliability, and cost tradeoffs in agentic workflows composed of multiple interacting LLM-powered and conventional agents.

Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs og fallback
Mon, May 25 5 entries
paper research 3w ago · arxiv-cs-lg

Latent Cache Flow:テキストを介さないモデル間通信 Latent Cache Flow: Model-to-Model Communication Without Text

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 LLMエージェントがテキストではなくKVキャッシュを直接共有することで、レイテンシ削減と情報損失の低減を図る手法を提案。

EN A proposed method enabling LLM agents to communicate via shared KV caches rather than text, reducing autoregressive decoding latency and information loss between models.

fallback
paper research 3w ago · arxiv-cs-lg

言語モデルの生成軌跡から較正された不確実性を読み取る Reading Calibrated Uncertainty from Language Model Trajectories

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 言語モデルの不確実性定量化において、最大ソフトマックス確率に代わる軌跡ベースの較正手法を提案した研究論文。

EN A research paper proposing trajectory-based methods to extract calibrated uncertainty estimates from language models, moving beyond the default maximum softmax probability (MSP) baseline.

fallback
paper research 3w ago · arxiv-cs-lg

残差から理由へ:表形式データにおけるLLM誘導メカニズム推論 From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 LLMを活用して表形式データの統計的残差から因果メカニズムを推論する手法を提案。予測と理解の両立を目指す研究。

EN A new method uses LLMs to infer causal mechanisms from model residuals in tabular data, aiming to bridge predictive accuracy and scientific interpretability.

fallback
paper research 3w ago · arxiv-cs-lg

MARGIN: マルチエージェント基盤モデル協調のためのランタイム信頼度キャリブレーション MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 複数の基盤モデルエージェントが協調する環境で、コーディネーターが各エージェントの応答をどれだけ信頼すべきかを実行時にキャリブレーションする手法MARGINを提案。

EN MARGIN proposes a runtime confidence calibration method for multi-agent deployments, helping a coordinator decide which foundation model agent's response to trust.

fallback
paper research 3w ago · arxiv-cs-lg

PACE: 小規模言語モデルエージェントの2タイムスケール自己進化 PACE: Two-Timescale Self-Evolution for Small Language Model Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 小規模LMエージェントを本番環境で効率的に運用するため、プロンプトやパーサーを自動チューニングする2タイムスケール自己進化フレームワークPACEを提案。

EN PACE introduces a two-timescale self-evolution framework that automates prompt and component tuning for small language model agents, reducing compute and human effort in production deployments.

fallback
Tue, May 19 1 entries
community research 4w ago · hn-ai

Show HN: InsForge – コーディングエージェント向けオープンソースのHeroku代替 Show HN: InsForge – Open-source Heroku for coding agents

重要度 Medium Medium priority 重要度 Medium · コミュニティ · Papers / Benchmarks Medium priority · community · Papers / Benchmarks 公開 5月19日 Published May 19

AI要約 InsForgeはコーディングエージェントの実行環境を簡単に構築できるオープンソースのPaaSプラットフォーム。HNで62ポイントを獲得。

EN HN: 62 points, 7 comments · @mrcoldbrew · https://news.ycombinator.com/item?id=48181342

fallback
Wed, Apr 22 1 entries
NEW blog research 1mo ago · dora-insights

DORA、Quick Check 診断ツールを刷新し最新調査結果を反映 Quick Check updates

通常 Normal 新着 · 技術記事 · Papers / Benchmarks New · technical post · Papers / Benchmarks 公開 4月22日 Published Apr 22

AI要約 DORAは開発組織の能力を自己診断する「Quick Check」ツールを更新し、最新のDORA調査結果や指標体系を反映した。チームは数分で自組織のパフォーマンスを業界ベンチマークと比較し、改善領域を特定できるようになった。

EN The DORA Quick Check was recently updated to include deployment rework rate and the latest industry benchmarks. Measure your team’s software delivery performance and compare it to the rest of the indu

fallback
Tue, Mar 10 1 entries
NEW blog research 3mo ago · dora-insights

DORA調査:AI導入から効果的なSDLC活用へ、緊張関係をどう調整するか Balancing AI tensions: Moving from AI adoption to effective SDLC use

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Papers / Benchmarks Medium priority · technical post · Papers / Benchmarks 公開 3月10日 Published Mar 10

AI要約 DORAの最新インサイトは、AIをソフトウェア開発ライフサイクル(SDLC)に組み込む際に生じる緊張関係を整理し、単なる導入から効果的活用へ移行する方法を論じる。生産性と品質、信頼と検証のバランスが鍵となる。

EN While AI accelerates initial code generation and reduces start-up friction, it introduces hidden taxes like heavy verification overhead, skill degradation, and integration challenges. Leaders must ada

fallback
Mon, Mar 9 1 entries
community research 3mo ago · hn-ai

Mcp2cli登場、MCPより96-99%少ないトークンで全APIをCLI化 Show HN: Mcp2cli – One CLI for every API, 96-99% fewer tokens than native MCP

通常 Normal 深掘り候補 · コミュニティ · Papers / Benchmarks Deep-dive candidate · community · Papers / Benchmarks 公開 3月9日 Published Mar 9

AI要約 Mcp2cliは任意のAPIを単一のCLIとして公開し、ネイティブMCPに比べ96〜99%少ないトークン消費でLLMエージェントから利用できるようにするツール。冗長なツール定義を避け、必要時にヘルプを参照する設計で効率化を図る。

EN HN: 146 points, 100 comments · @knowsuchagency · https://news.ycombinator.com/item?id=47305149

fallback
Tue, Feb 17 1 entries
NEW blog research 4mo ago · dora-insights

DORA調査:AI依存をどう管理するか Managing AI dependency

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Papers / Benchmarks Medium priority · technical post · Papers / Benchmarks 公開 2月17日 Published Feb 17

AI要約 DORAの最新研究から、開発チームがAIツールに過度に依存するリスクと、その健全な管理方法を解説。スキル維持や批判的検証を組み込むことで、生産性向上と長期的な専門性の両立を図る重要性を指摘している。

EN While AI makes challenging projects feel more accessible, it also sparks anxiety about becoming too dependent. Our research with UC Berkeley students found that students are establishing guardrails fo

fallback
Thu, Jan 15 1 entries
NEW blog research 5mo ago · dora-insights

DORA、DevOps Dozen Awards 2025にノミネート DevOps Dozen Awards 2025

通常 Normal 新着 · 技術記事 · Papers / Benchmarks New · technical post · Papers / Benchmarks 公開 1月15日 Published Jan 15

AI要約 GoogleのDORAチームが、DevOps Dozen Awards 2025で複数部門にノミネートされたことを発表した。長年にわたるDevOpsリサーチとState of DevOpsレポートの貢献が評価されたもので、コミュニティ投票が呼びかけられている。

EN The DevOps Dozen Awards are an annual program organized by the Techstrong Group. They honor the most influential individuals, innovative tools, and impactful companies within the DevOps community. DOR

fallback
Wed, Jan 7 1 entries
NEW blog research 5mo ago · dora-insights

DORA 2025年の振り返り:AI時代の開発生産性研究の進化 DORA 2025: Year in review

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Papers / Benchmarks Medium priority · technical post · Papers / Benchmarks 公開 1月7日 Published Jan 7

AI要約 GoogleのDORAチームが2025年の活動を総括。AI支援開発に関する大規模調査「State of AI-assisted Software Development Report」の公開や、AI導入を成熟させるためのDORA AI Capabilities Modelの提示など、研究の重心がAI時代の開発生産性へとシフトしたことを報告している。

EN A look back at the highlights and community contributions from 2025.

fallback
Fri, Jan 2 1 entries
NEW blog research 5mo ago · dora-insights

DORAソフトウェアデリバリ指標の歴史と進化 A history of DORA’s software delivery metrics

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Papers / Benchmarks Medium priority · technical post · Papers / Benchmarks 公開 1月2日 Published Jan 2

AI要約 DORAが10年以上にわたり研究してきたソフトウェアデリバリ指標の変遷を振り返る記事。デプロイ頻度やリードタイムなど4つの主要指標の成立経緯と、信頼性指標の追加など近年の改訂を解説している。

EN DORA’s software delivery performance metrics have evolved over time to reflect the changing technology landscape. Learn about the transition from the four keys to the current five-metric model.

fallback
Fri, Dec 12 1 entries
NEW blog research 6mo ago · dora-insights

AIを家庭教師として活用する開発組織の学習スタイル AI as a tutor

通常 Normal 新着 · 技術記事 · Papers / Benchmarks New · technical post · Papers / Benchmarks 公開 12月12日 Published Dec 12

AI要約 DORAの調査によると、AIを家庭教師のように使い概念や設計の理解を深める開発者は、単なるコード生成器として使う層よりも生産性や学習効果が高い傾向にある。組織はこの使い方を促す文化と仕組みを整えるべきだと指摘している。

EN While critics worry students use AI to cheat, our research reveals something different: students are using AI to learn. At UC Berkeley, many students in technical fields are using AI to teach them rat

fallback
Fri, Oct 17 1 entries
NEW blog research 8mo ago · dora-insights

AI時代における「ビルダー意図」の理解とDORAの新視点 Understanding builder intent in the AI era

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Papers / Benchmarks Medium priority · technical post · Papers / Benchmarks 公開 10月17日 Published Oct 17

AI要約 DORAは、AIが開発作業を担う中で人間の「ビルダーとしての意図」が成果を左右すると指摘。コード生成の自動化が進むほど、目的意識・判断・責任といった意図の質が、ソフトウェアデリバリーのパフォーマンスを決定づけるという新たな枠組みを提示している。

EN As AI decouples roles from tasks, traditional developer personas are becoming less relevant. This article introduces the “Builder Mindset” framework, identifying four core intents—Founder,

fallback
Tue, Sep 23 1 entries
NEW blog research 8mo ago · dora-insights

DORA調査: カスタマイズ可能なツールが開発者エンゲージメントを高める How customization supports developer engagement

通常 Normal 新着 · 技術記事 · Papers / Benchmarks New · technical post · Papers / Benchmarks 公開 9月23日 Published Sep 23

AI要約 DORAの最新調査によると、開発者が自分のワークフローやツールをカスタマイズできる環境はエンゲージメントを高め、生産性やウェルビーイングの向上にも寄与する。組織はツール選定や運用ルールに柔軟性を持たせることが重要だと示唆される。

EN While AI coding assistants excel at mechanical tasks, research with UC Berkeley students reveals they can introduce friction and cognitive load during complex, interpretive work. By customizing AI too

fallback
Wed, Aug 6 1 entries
blog research 10mo ago · dora-insights

DORA、組織目標に合った測定フレームワークの選び方を解説 Choosing measurement frameworks to fit your organizational goals

通常 Normal 深掘り候補 · 技術記事 · Papers / Benchmarks Deep-dive candidate · technical post · Papers / Benchmarks 公開 8月6日 Published Aug 6

AI要約 DORAは、組織の目標に応じてDORAメトリクス、SPACE、DevExなど複数の測定フレームワークを使い分けることの重要性を解説。単一指標に依存せず、目的に応じて補完的に組み合わせる実践的アプローチを示している。

EN Measuring software development effectiveness requires choosing the right framework to match your organizational goals. This guide explores popular frameworks like SPACE, DevEx, and DORA, offering prac

fallback