HomeTags#benchmark

Tag timeline

#benchmark 32 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 32
Showing 30
Page 1/2
Updated 1m ago

Entries page 1/2 · 32 total

Sun, Jun 7 1 entries
blog local-llm 1w ago · qiita-llm

ローカルLLMは「ラ・サール中」の難問を解けるのか?最新モデル比較で見えた驚きの知能差 A benchmark blog post testing multiple local LLMs on La Salle Junior High School entrance …

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月7日 Published Jun 7

AI要約 ラ・サール中学の入試算数問題を複数の最新ローカルLLMに解かせ、モデルごとの推論能力の差を比較検証した記事。期待に反し、モデル間で「驚きの知能差」が浮き彫りになったとされる。

EN A benchmark blog post testing multiple local LLMs on La Salle Junior High School entrance exam math problems, revealing surprising reasoning capability gaps among the compared models.

fallback
Wed, Jun 3 1 entries
blog local-llm 2w ago · zenn-llm

M1 Pro 32GBでQwen3.6-35B-A3Bを本気で使ってみた正直な話 A hands-on report on running Alibaba's Qwen3.6-35B-A3B sparse MoE model on an M1 Pro MacBo…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月3日 Published Jun 3

AI要約 AlibabaのQwen3.6-35B-A3BをM1 Pro 32GBのMacで実際に動かした検証レポート。35B総パラメータ・3Bアクティブのスパース MoEモデルながら、コンシューマー向けハードウェアでの実用性を率直に評価している。

EN A hands-on report on running Alibaba's Qwen3.6-35B-A3B sparse MoE model on an M1 Pro MacBook with 32GB of unified memory, offering an honest assessment of real-world usability on consumer hardware.

fallback
Mon, Jun 1 5 entries
paper research 2w ago · arxiv-cs-cl

LLMチームは「What? Where? When?」をプレイできるか?間接推論と文化知識の限界に迫る研究 Can LLM Teams Play What? Where? When?

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 大規模言語モデル(LLM)が間接推論・文化的知識・協調的仮説検証を必要とするクイズゲーム「What? Where? When?」でどこまで通用するかを検証した論文。LLMの現在の限界と、チーム構成による協調推論の可能性を探っている。

EN Researchers investigate whether teams of LLMs can tackle 'What? Where? When?', a trivia game demanding indirect reasoning and cultural knowledge, probing the cooperative reasoning limits of current large language models.

fallback
paper research 2w ago · arxiv-cs-lg

QASM-Eval: OpenQASM-3 対応 LLM の訓練・評価用データセット QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 量子コンピューティング向けプログラミング言語 OpenQASM-3 を題材に、LLM の理解・生成能力を訓練・評価するためのデータセット「QASM-Eval」が提案された。NISQ 時代の課題に対応し、量子回路の枠を超えた幅広いタスクをカバーする点が特徴とされる。

EN arXiv:2605.30358v1 Announce Type: new Abstract: Quantum computing remains in the Noisy Intermediate-Scale Quantum (NISQ) era, where the performance is highly constrained to noise. Addressing the limit

fallback
paper research 2w ago · arxiv-cs-lg

NumLeak: 公開数値ベンチマークが基盤モデルの潜在ラベルになる問題 NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 arXiv論文「NumLeak」は、公開数値ベンチマークが事前学習データに混入することで、モデル評価が記憶の再現を測定している可能性を指摘する。日付条件付き評価を用いることで、真の汎化能力と暗記を区別する手法を提案している。

EN arXiv:2605.30393v1 Announce Type: new Abstract: Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample

fallback
paper research 2w ago · arxiv-cs-lg

LongDS-Bench:長期的なエージェント型データ分析が失敗する理由を検証 LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 LongDS-Benchは、現実のデータ分析が持つ反復的・長期的な性質を再現した新しいベンチマーク。既存の評価手法では捉えられなかったAIエージェントの弱点を体系的に明らかにする研究成果。

EN arXiv:2605.30434v1 Announce Type: new Abstract: Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability t

fallback
blog claude 2w ago · qiita-claude

Claude Opus 4.8とは何か?Dynamic Workflowsと最新ベンチマークを図解で完全整理 A Qiita article provides a comprehensive illustrated breakdown of Claude Opus 4.8, coverin…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 6月1日 Published Jun 1

AI要約 Qiitaに投稿された本記事は、Anthropicの最新モデルClaude Opus 4.8を解説。SWE-benchやGDPvalといった評価指標の意味から、Dynamic Workflowsの概念まで、図解を交えて体系的にまとめている。

EN A Qiita article provides a comprehensive illustrated breakdown of Claude Opus 4.8, covering key benchmarks like SWE-bench and GDPval alongside the Dynamic Workflows paradigm that defines the model's agentic capabilities.

fallback
Fri, May 29 1 entries
blog claude 3w ago · qiita-claude

AI Daily Digest: 2026-05-29 — Opus 4.8 Dynamic Workflows・Agent Governance・ITBench-AA A curated daily digest covering Anthropic's Opus 4.8 dynamic workflow capabilities, agent …

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 5月29日 Published May 29

AI要約 AnthropicのOpus 4.8発表を中心に、エージェントガバナンスとITベンチマーク「ITBench-AA」を取り上げた技術ダイジェスト。

EN A curated daily digest covering Anthropic's Opus 4.8 dynamic workflow capabilities, agent governance frameworks, and the ITBench-AA benchmark for IT automation agents.

AI Daily Digest: 2026-05-29 — Opus 4.8 Dynamic Workflows, Agent Governance, ITBench-AA og fallback
Thu, May 28 3 entries
paper research 3w ago · arxiv-cs-ai

DynaSchedBench: LLMベーススケジューリングエージェントにおける動的スケジューリングベンチマークと観測可能性パラドックス DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 動的フレキシブルジョブショップスケジューリング問題(DFJSP)向けに、LLMエージェントの評価手法の方法論的課題を指摘するベンチマークを提案。

EN arXiv:2605.27566v1 Announce Type: new Abstract: Progress in neural combinatorial optimization for Dynamic Flexible Job Shop Scheduling Problem (DFJSP) is currently hindered by a methodological tension

DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents og fallback
paper research 3w ago · arxiv-cs-se

ベンチマークだけでは不十分:本番システムにおけるエージェント型モデルのランタイム評価フレームワーク「RAMP」 Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約 LLMエージェントの本番運用向けランタイム評価フレームワーク「RAMP」を提案。既存ベンチマークの限界を指摘し、実環境での継続的アセスメントを可能にする。

EN arXiv:2605.27492v1 Announce Type: new Abstract: LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodologies remain l

fallback
blog local-llm 3w ago · qiita-llm

iPhoneでローカルLLM、結局どのランタイムが速い? MLX / llama.cpp / LiteRT-LM / CoreML を実機ベンチした A hands-on benchmark comparing four on-device LLM runtimes—MLX, llama.cpp, LiteRT-LM, and …

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月28日 Published May 28

AI要約 iPhone実機でMLX・llama.cpp・LiteRT-LM・CoreMLの4ランタイムをベンチマークし、ローカルLLMの推論速度を比較検証した記事。

EN A hands-on benchmark comparing four on-device LLM runtimes—MLX, llama.cpp, LiteRT-LM, and CoreML—running on a physical iPhone to determine which delivers the fastest inference.

fallback
Wed, May 27 10 entries
paper research 3w ago · arxiv-cs-cl

The Daily Dose:放射線腫瘍学における臨床要約と治験識別のためのワークフロー統合LLM自動化 The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 放射線腫瘍学向けにLLMを活用した臨床要約・治験マッチングシステム「The Daily Dose」の設計と初期臨床評価を報告。

EN arXiv:2605.26346v1 Announce Type: new Abstract: Objective: To describe the design and early clinical evaluation of The Daily Dose (TDD), an LLM-driven, automated clinical summarization and clinical-tr

The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology og fallback
paper research 3w ago · arxiv-cs-ai

Anchor: エージェントベンチマーク生成におけるアーティファクトドリフトの軽減 Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 AIエージェント向けベンチマーク生成時に生じるアーティファクトドリフトを軽減する手法「Anchor」を提案した研究論文。

EN Anchor is a proposed method to reduce artifact drift when generating benchmarks for AI agents tackling long-horizon enterprise tasks.

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation og fallback
paper research 3w ago · arxiv-cs-ai

OmniToM: 明示的な信念モデリングによるLLMの心の理論ベンチマーク OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMにおける「心の理論」を明示的な信念モデリングで評価する新ベンチマーク「OmniToM」を提案した研究論文。

EN OmniToM is a new benchmark for evaluating Theory of Mind in LLMs, moving beyond end-to-end tasks by requiring explicit belief modeling across knowledge, intentions, and emotions.

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling og fallback
paper research 3w ago · arxiv-cs-ai

JobBench: エージェントの仕事を人間の意志に合わせる JobBench: Aligning Agent Work With Human Will

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 職業AIエージェントを経済的価値だけでなく人間の意志との整合性で評価する新ベンチマーク「JobBench」を提案。

EN JobBench is a new benchmark for occupational AI agents that goes beyond economic replacement metrics to evaluate alignment with human will and intent.

JobBench: Aligning Agent Work With Human Will og fallback
paper research 3w ago · arxiv-cs-se

VISTA: ビジュアル仕様からWebアプリ生成を評価するエンドツーエンドベンチマーク VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMエージェントがビジュアル仕様からWebアプリを生成する能力を評価するベンチマーク「VISTA」を提案。

EN VISTA is a new benchmark for evaluating LLM-based agents on end-to-end web-app generation from visual specifications.

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents og fallback
paper research 3w ago · arxiv-cs-se

RepoMirage: 摂動を用いたコードエージェントのリポジトリコンテキスト推論の検証 RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 コードエージェントがリポジトリレベルのベンチマークで本当にコンテキストを理解しているか、摂動を加えて検証する研究。

EN RepoMirage probes whether code agents genuinely reason about repository context or exploit shortcuts, using controlled perturbations on repository-level benchmarks.

fallback
paper research 3w ago · arxiv-cs-se

SetupX: LLMエージェントはコードリポジトリのセットアップ失敗から学習できるか? SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 リポジトリの実行環境構成を正しく行うベンチマーク SetupX を提案し、LLMエージェントが過去の失敗から学習できるかを検証した研究。

EN SetupX is a benchmark studying whether LLM agents can learn from past failures to correctly configure execution environments for code repositories.

fallback
paper research 3w ago · arxiv-cs-se

Verus-SpecGym: 仕様の自動形式化を評価するエージェント環境 Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 AIコーディングエージェントの出力の正しさを保証するため、仕様の自動形式化を評価するベンチマーク環境Verus-SpecGymを提案した研究論文。

EN Verus-SpecGym is a new agentic benchmark environment for evaluating how well AI agents can autoformalize software specifications, addressing correctness challenges in AI-generated code.

fallback
paper research 3w ago · arxiv-cs-se

構造的カバレッジ基準によるエージェントワークフローのテスト Testing Agentic Workflows with Structural Coverage Criteria

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 マルチエージェントシステムのワークフロー構造(エージェント・ツール・委譲パス等)を活用した新しいテスト手法を提案する研究論文。

EN A research paper proposing structural coverage criteria for testing multi-agent workflows, leveraging explicit structures such as agents, tools, access rules, and delegation paths.

fallback
🔥 HOT blog tech-news 3w ago · nvidia-blog

NVIDIAのVera CPUが競合に「強烈な一撃」——初期ベンチマーク結果が公開 NVIDIA Vera CPU Is ‘Packing a Heavy-Hitting Punch’ Against Competition

重要度 High High priority 重要度 High · 技術記事 · Industry & Policy High priority · technical post · Industry & Policy 公開 5月27日 Published May 27

AI要約 NVIDIAのVera CPUがPhoronixのベンチマークで競合を圧倒。エージェンティックAI時代に求められる高速コア・大帯域・全コア持続性能を備える。

EN The shift to agentic AI creates a new CPU requirement for the AI factory: fast cores, massive memory bandwidth and the ability to sustain high performance when all cores are active. Initial benchmark

fallback
Mon, May 25 3 entries
blog claude 3w ago · qiita-claude

Claude Opus 4.7の100万トークン、本当に使い切れるのか — モノレポ丸投げで実測した Claude Opus 4

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 5月25日 Published May 25

AI要約 Anthropicが2026年4月にリリースしたClaude Opus 4.7の1Mトークンコンテキストを、モノレポ全体を投入して実際の使い勝手を検証した実測レポート。

EN A hands-on benchmark feeding an entire monorepo into Claude Opus 4.7's 1M-token context window to evaluate whether the capacity is practically usable in real development workflows.

fallback
blog copilot 3w ago · qiita-copilot

PR レビュー AI ベンチ:同一 PR を 5 ツールに渡した結果 PR レビュー AI ベンチ:同一 PR を 5 ツールに渡した結果

重要度 Medium Medium priority 重要度 Medium · 技術記事 · GitHub Copilot Medium priority · technical post · GitHub Copilot 公開 5月25日 Published May 25

AI要約 同一の Pull Request を ChatGPT GPT-5 など 5 つの AI レビューツールに投入し、それぞれの検出精度や使い勝手を比較検証した記事。

EN A hands-on benchmark comparing five AI code-review tools on the same Pull Request, evaluating detection quality, usability, and practical trade-offs.

fallback
blog cursor 3w ago · zenn-cursor

Cursor Composer 2.5 を Codens の executor lane に追加した話 (Opus の 1/10 コスト + Cursor Composer 2

重要度 Medium Medium priority 重要度 Medium · 技術記事 · AI Editors Medium priority · technical post · AI Editors 公開 5月25日 Published May 25

AI要約 Cursor が Composer 2.5 を出した時に最初に目を留めたのは benchmark の絶対値ではなく、 per-attempt cost の桁が 1 つ違うという事実でした。SWE-Bench Multilingual で A

Cursor Composer 2.5 を Codens の executor lane に追加した話 (Opus の 1/10 コスト + og fallback
Mon, May 18 1 entries
blog copilot 4w ago · zenn-copilot

RPi 5 で AI コーディング CLI は速くなる?Claude Code・Codex・Copilot を 630 試行で比較 RPi 5 で AI コーディング CLI は速くなる?Claude Code・Codex・Copilot を 630 試行で比較

重要度 Medium Medium priority 重要度 Medium · 技術記事 · GitHub Copilot Medium priority · technical post · GitHub Copilot 公開 5月18日 Published May 18

AI要約 はじめに Raspberry Pi 5 で Claude Code・Codex CLI・GitHub Copilot CLI は本当に速くなるのか。前回分も含めた 630 回の試行で、速度とメモリ使用量の差を比べました。 結論は次の 3 つ

fallback
Fri, May 15 1 entries
blog tech-news 1mo ago · aws-news

Amazon Bedrockが高度なプロンプト最適化とモデル移行ツールを導入 Amazon Bedrock introduces new advanced prompt optimization and migration tool

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Industry & Policy Medium priority · technical post · Industry & Policy 公開 5月15日 Published May 15

AI要約 Amazon Bedrockの新機能により、プロンプトの最適化や新モデルへの移行を評価フィードバックループを活用して迅速に実施できるようになった。

EN Amazon Bedrock Advanced Prompt Optimization enables customers to optimize their prompts for their current model or migrate prompts to new models faster than before with built-in evaluation feedback lo

Amazon Bedrock introduces new advanced prompt optimization and migration tool og fallback
Wed, May 6 1 entries
blog local-llm 1mo ago · huggingface-blog

Open ASR Leaderboardにベンチマーク不正対策の非公開データセットを追加 Adding Benchmaxxer Repellant to the Open ASR Leaderboard

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月6日 Published May 6

AI要約 Hugging FaceがOpen ASR Leaderboardに非公開テストセットを導入し、ベンチマークの過剰最適化(benchmaxxing)を防ぐ仕組みを追加した。これによりモデルの真の汎化性能を測定でき、公開データへの過学習を見抜けるようになる。

EN Adding Benchmaxxer Repellant to the Open ASR Leaderboard

fallback
Tue, Apr 21 1 entries
blog local-llm 1mo ago · huggingface-blog

QIMMA: 品質重視のアラビア語LLMリーダーボード公開 QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 4月21日 Published Apr 21

AI要約 TII (Technology Innovation Institute) がアラビア語LLM評価のための新リーダーボード「QIMMA」を公開した。品質を最優先に、文化的・言語的特性を反映したベンチマークでモデルを評価し、アラビア語圏での実用性を可視化する。

EN QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

fallback
Thu, Feb 12 1 entries
blog local-llm 4mo ago · huggingface-blog

OpenEnv実践:実環境でのツール使用エージェント評価 OpenEnv in Practice: Evaluating Tool-Using Agents in Real-World Environments

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月12日 Published Feb 12

AI要約 Hugging FaceがOpenEnvとTuringベンチマークを用いて、実環境でツールを活用するAIエージェントの能力を体系的に評価する手法を解説。

EN OpenEnv in Practice: Evaluating Tool-Using Agents in Real-World Environments

fallback
Wed, Feb 4 1 entries
blog local-llm 4mo ago · huggingface-blog

H CompanyのHolo2-235B-A22BがUIローカライゼーションで首位を獲得 H Company's new Holo2 model takes the lead in UI Localization

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月4日 Published Feb 4

AI要約 H Companyが公開したHolo2-235B-A22BはUI要素の特定タスクで最高性能を達成し、GUIエージェント分野で前世代・競合モデルを上回った。

EN H Company's new Holo2 model takes the lead in UI Localization

fallback