CUDABeaver: LLMによるCUDA自動デバッグのベンチマーク CUDABeaver: Benchmarking LLM-Based Automated CUDA Debugging
AI要約 CUDA カーネルのバグ修正能力を評価する新ベンチマーク CUDABeaver を提案。LLM がGPU 並列処理特有のバグをどこまで自動修正できるかを体系的に検証し、現状の限界と改善余地を示す。
EN CUDABeaver introduces a benchmark for evaluating large language models on automated CUDA kernel debugging, revealing how well current LLMs can fix GPU-parallelism-specific bugs and where they still fall short.