HomeTags#benchmarking

#benchmarking page 1/1 · 1 total

TODAY 1 entries
NEW blog claude 33m ago · anthropic-engineering

AnthropicのClaude Code評価において、推論・コーディング・エージェント的タスクでモデル性能を測定する際、インフラ起因のノイ… Infrastructure Noise

AI要約 AnthropicのClaude Code評価において、推論・コーディング・エージェント的タスクでモデル性能を測定する際、インフラ起因のノイズ(ツールのタイムアウト、サンドボックス障害、レート制限等)が結果を歪める問題を分析。ノイズの特定・軽減手法を紹介し、信頼性の高いベンチマーク運用の重要性を論じる。

EN Anthropic discusses how infrastructure noise—tool timeouts, sandbox failures, rate limits, and flaky environments—can distort model evaluations for Claude Code, and shares techniques for identifying and mitigating such noise to produce reliable benchmarks.

anthropic.com
fallback