AI評価指標「SWE-bench」とは何か?その仕組みを解説 This article explains SWE-bench, a benchmark for evaluating AI coding models
AI要約 AIコーディングモデルの性能評価に使われるベンチマーク「SWE-bench」について解説した記事。GitHubの実際のIssueとPRを基にした課題集で、AIがバグ修正や機能追加を実施できるかを評価する仕組みとその意義を紹介している。
EN This article explains SWE-bench, a benchmark for evaluating AI coding models. Built from real GitHub issues and pull requests, it measures whether AI can actually fix bugs and implement features in real-world codebases.
og