HomeTags#benchmarking

Tag timeline

#benchmarking 5 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 5
Showing 5
Page 1/1
Updated 1h ago

Entries page 1/1 · 5 total

Tue, May 26 2 entries
blog local-llm 3w ago · zenn-llm

M5 Max のローカル LLM ベンチ — MoE は GPU 性能、Dense はメモリ帯域幅がボトルネック、発熱の影響も調査 A benchmark report on running local LLMs on Apple M5 Max, finding that MoE models are GPU-…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月26日 Published May 26

AI要約 M5 Max 上でローカル LLM を実行し、MoE モデルは GPU 演算、Dense モデルはメモリ帯域幅がそれぞれボトルネックになることを検証。発熱による性能低下も測定した後編レポート。

EN A benchmark report on running local LLMs on Apple M5 Max, finding that MoE models are GPU-bound while Dense models are memory-bandwidth-bound, with thermal throttling effects also measured.

M5 Max のローカル LLM ベンチ — MoE は GPU 性能、Dense はメモリ帯域幅がボトルネック、発熱の影響も調査 og fallback
blog local-llm 3w ago · zenn-llm

Gemma 4 の MMLU-Pro スコアを NVIDIA B200 で再現する:ステップ・バイ・ステップガイド A step-by-step guide on reproducing Google Gemma 4 31B-IT's claimed ~85.2% MMLU-Pro score …

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月26日 Published May 26

AI要約 Google の Gemma 4 31B-IT が主張する MMLU-Pro 約 85.2% を NVIDIA B200 上で lm_eval を使って手元再現する手順を詳解した実践ガイド。

EN A step-by-step guide on reproducing Google Gemma 4 31B-IT's claimed ~85.2% MMLU-Pro score on NVIDIA B200 hardware using lm_eval, covering practical pitfalls beyond a single command.

fallback
Wed, Apr 22 1 entries
NEW blog research 1mo ago · dora-insights

DORA、Quick Check 診断ツールを刷新し最新調査結果を反映 Quick Check updates

通常 Normal 新着 · 技術記事 · Papers / Benchmarks New · technical post · Papers / Benchmarks 公開 4月22日 Published Apr 22

AI要約 DORAは開発組織の能力を自己診断する「Quick Check」ツールを更新し、最新のDORA調査結果や指標体系を反映した。チームは数分で自組織のパフォーマンスを業界ベンチマークと比較し、改善領域を特定できるようになった。

EN The DORA Quick Check was recently updated to include deployment rework rate and the latest industry benchmarks. Measure your team’s software delivery performance and compare it to the rest of the indu

fallback
Thu, Feb 19 1 entries
blog local-llm 4mo ago · huggingface-blog

IBMとUC Berkeley、IT-BenchとMASTで企業向けAIエージェントの失敗要因を診断 IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月19日 Published Feb 19

AI要約 IBMリサーチとUC Berkeleyは、企業ITタスクにおけるAIエージェントの失敗を分析する診断フレームワークを発表した。IT-Benchで実環境タスクを評価し、MASTで失敗モードを分類することで、SRE・CISO・FinOps領域における低い成功率の原因を体系的に特定する。

EN IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

fallback
Wed, Feb 4 1 entries
blog local-llm 4mo ago · huggingface-blog

Community Evals:ブラックボックスのリーダーボードより、コミュニティの評価を信頼する時代へ Community Evals: Because we're done trusting black-box leaderboards over the community

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月4日 Published Feb 4

AI要約 Hugging Faceがコミュニティ主導のLLM評価プラットフォーム「Community Evals」を発表。透明性と再現性を重視したオープンな評価エコシステムを目指す。

EN Community Evals: Because we're done trusting black-box leaderboards over the community

fallback