HomeTags#evaluation

Tag timeline

#evaluation 13 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 13
Showing 13
Page 1/1
Updated 1h ago

Entries page 1/1 · 13 total

Mon, Jun 1 2 entries
paper research 2w ago · arxiv-cs-lg

NumLeak: 公開数値ベンチマークが基盤モデルの潜在ラベルになる問題 NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 arXiv論文「NumLeak」は、公開数値ベンチマークが事前学習データに混入することで、モデル評価が記憶の再現を測定している可能性を指摘する。日付条件付き評価を用いることで、真の汎化能力と暗記を区別する手法を提案している。

EN arXiv:2605.30393v1 Announce Type: new Abstract: Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample

fallback
paper research 2w ago · arxiv-cs-lg

LongDS-Bench:長期的なエージェント型データ分析が失敗する理由を検証 LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 LongDS-Benchは、現実のデータ分析が持つ反復的・長期的な性質を再現した新しいベンチマーク。既存の評価手法では捉えられなかったAIエージェントの弱点を体系的に明らかにする研究成果。

EN arXiv:2605.30434v1 Announce Type: new Abstract: Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability t

fallback
Thu, May 28 1 entries
paper research 3w ago · arxiv-cs-se

ベンチマークだけでは不十分:本番システムにおけるエージェント型モデルのランタイム評価フレームワーク「RAMP」 Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMエージェントの本番運用向けランタイム評価フレームワーク「RAMP」を提案。既存ベンチマークの限界を指摘し、実環境での継続的アセスメントを可能にする。

EN arXiv:2605.27492v1 Announce Type: new Abstract: LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodologies remain l

fallback
Wed, May 27 2 entries
paper research 3w ago · arxiv-cs-ai

Anchor: エージェントベンチマーク生成におけるアーティファクトドリフトの軽減 Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 AIエージェント向けベンチマーク生成時に生じるアーティファクトドリフトを軽減する手法「Anchor」を提案した研究論文。

EN Anchor is a proposed method to reduce artifact drift when generating benchmarks for AI agents tackling long-horizon enterprise tasks.

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation og fallback
paper research 3w ago · arxiv-cs-se

RepoMirage: 摂動を用いたコードエージェントのリポジトリコンテキスト推論の検証 RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 コードエージェントがリポジトリレベルのベンチマークで本当にコンテキストを理解しているか、摂動を加えて検証する研究。

EN RepoMirage probes whether code agents genuinely reason about repository context or exploit shortcuts, using controlled perturbations on repository-level benchmarks.

fallback
Tue, May 26 1 entries
blog claude 3w ago · zenn-claude

Anthropicに学ぶエージェント「設計」と「評価」——複雑なフレームワークより、シンプルなパターン A practical guide drawing on Anthropic's insights to help teams design and evaluate AI age…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 5月26日 Published May 26

AI要約 AIエージェントの本番運用で品質を維持するため、Anthropicの知見をもとにシンプルな設計パターンと評価手法を解説した実践的記事。

EN A practical guide drawing on Anthropic's insights to help teams design and evaluate AI agents using simple patterns rather than complex frameworks, addressing quality pitfalls in production.

fallback
Thu, May 7 1 entries
blog copilot 1mo ago · github-copilot

正解が一意に定まらないAIエージェントの挙動を検証する手法 Validating agentic behavior when “correct” isn’t deterministic

重要度 Medium Medium priority 重要度 Medium · 技術記事 · GitHub Copilot Medium priority · technical post · GitHub Copilot 公開 5月7日 Published May 7

AI要約 GitHubは、エージェント型AIの出力が非決定的である場合に、従来のテスト手法では品質保証が困難であることを指摘。LLM-as-a-judgeやシナリオベース評価、トレース分析など、確率的システムを継続的に検証するためのアプローチを紹介している。

EN How to build the “Trust Layer” for GitHub Copilot cloud agent without brittle scripts or black-box judgements by using dominatory analysis. The post Validating agentic behavior when “correct” isn’t de

Validating agentic behavior when “correct” isn’t deterministic og fallback
Wed, May 6 1 entries
blog local-llm 1mo ago · huggingface-blog

Open ASR Leaderboardにベンチマーク不正対策の非公開データセットを追加 Adding Benchmaxxer Repellant to the Open ASR Leaderboard

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月6日 Published May 6

AI要約 Hugging FaceがOpen ASR Leaderboardに非公開テストセットを導入し、ベンチマークの過剰最適化(benchmaxxing)を防ぐ仕組みを追加した。これによりモデルの真の汎化性能を測定でき、公開データへの過学習を見抜けるようになる。

EN Adding Benchmaxxer Repellant to the Open ASR Leaderboard

fallback
Tue, Apr 21 1 entries
blog gemini 1mo ago · google-developers

AI エージェントを本番運用へ: モノリス分解から得た 5 つの教訓 Production-Ready AI Agents: 5 Lessons from Refactoring a Monolith

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 4月21日 Published Apr 21

AI要約 Google が AI エージェントのプロトタイプを本番運用に耐えるシステムへ刷新した経験から得た 5 つの教訓を紹介。モノリス的な単一エージェントを専門化された複数エージェントに分割し、評価・観測性・状態管理を整備する重要性を説く。

EN Google shares five lessons learned from refactoring a monolithic AI agent prototype into a production-ready system, emphasizing decomposition into specialized sub-agents, robust evaluation, observability, and proper state management.

Production-Ready AI Agents: 5 Lessons from Refactoring a Monolith og fallback
Tue, Mar 24 1 entries
blog local-llm 2mo ago · huggingface-blog

音声エージェント評価の新フレームワーク EVA を ServiceNow が公開 A New Framework for Evaluating Voice Agents (EVA)

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 3月24日 Published Mar 24

AI要約 ServiceNow AI が音声エージェント評価のための新フレームワーク EVA を発表した。会話品質や音声特性、タスク達成度を統合的に測定し、従来のテキストベース評価では捉えきれない実運用上の課題に対応することを目指す。

EN A New Framework for Evaluating Voice Agents (EVA)

fallback
Wed, Mar 18 1 entries
NEW blog gemini 3mo ago · google-deepmind

AGIへの進捗を測る認知フレームワーク、DeepMindが提案 Measuring progress toward AGI: A cognitive framework

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 3月18日 Published Mar 18

AI要約 Google DeepMindは、汎用人工知能(AGI)への進捗を体系的に評価するための認知科学に基づくフレームワークを提案した。人間の知能の多様な側面を10領域に分類し、現行モデルの能力ギャップを可視化することで、研究の方向性と安全性議論の基盤を提供する狙いがある。

EN We’re introducing a framework to measure progress toward AGI, and launching a Kaggle hackathon to build the relevant evaluations.

Measuring progress toward AGI: A cognitive framework media fallback
Thu, Feb 12 1 entries
blog local-llm 4mo ago · huggingface-blog

OpenEnv実践:実環境でのツール使用エージェント評価 OpenEnv in Practice: Evaluating Tool-Using Agents in Real-World Environments

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月12日 Published Feb 12

AI要約 Hugging FaceがOpenEnvとTuringベンチマークを用いて、実環境でツールを活用するAIエージェントの能力を体系的に評価する手法を解説。

EN OpenEnv in Practice: Evaluating Tool-Using Agents in Real-World Environments

fallback
Tue, Dec 9 1 entries
NEW blog gemini 6mo ago · google-deepmind

FACTS Benchmark Suite: LLMの事実性を体系的に評価する新基準 FACTS Benchmark Suite: Systematically evaluating the factuality of large language models

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 12月9日 Published Dec 9

AI要約 Google DeepMindがLLMの事実性を体系的に評価するベンチマーク群「FACTS Benchmark Suite」を発表した。長文応答の事実性や根拠付けを測るFACTS Groundingに加え、新たな評価軸を追加し、モデルの幻覚問題を多角的に検証する枠組みを提供する。

EN Systematically evaluating the factuality of large language models with the FACTS Benchmark Suite.

FACTS Benchmark Suite: Systematically evaluating the factuality of large language models media fallback