M5 Max のローカル LLM ベンチ — MoE は GPU 性能、Dense はメモリ帯域幅がボトルネック、発熱の影響も調査 A benchmark report on running local LLMs on Apple M5 Max, finding that MoE models are GPU-…
- M5 Max 上でローカル LLM を実行し、MoE モデルは GPU 演算、Dense モデルはメモリ帯域幅がそれぞれボトルネックになることを検証。
- 発熱による性能低下も測定した後編レポート。
English summary
- A benchmark report on running local LLMs on Apple M5 Max, finding that MoE models are GPU-bound while Dense models are memory-bandwidth-bound, with thermal throttling effects also measured.
本記事は「M5 Max × DeepSeek V4 Flash」シリーズ全3編の後編にあたり、macOS 上でのセットアップや常駐化を扱った前・中編の続きとして位置づけられています。ベンチマークの主な知見として、MoE(Mixture of Experts)アーキテクチャのモデルでは GPU の演算性能が律速となる一方、Dense モデルではユニファイドメモリのメモリ帯域幅がボトルネックになることが示されています。
さらに、長時間の推論負荷による発熱がスループットに与える影響も検証されており、Apple Silicon の熱設計が実用上の持続性能に直結することが確認されています。詳細な数値や測定条件はソース記事で確認することを推奨します。
This article is the third and final installment in a series covering local LLM deployment on Apple M5 Max with DeepSeek V4 Flash. The earlier parts addressed macOS setup and background-service configuration; this concluding piece focuses on systematic benchmarking.
The central finding is an architectural split in bottlenecks: Mixture-of-Experts (MoE) models appear to be constrained by raw GPU compute throughput, while Dense models hit the ceiling of the unified memory bandwidth available on the M5 Max. This distinction has practical implications for model selection when targeting Apple Silicon hardware.
The report also investigates thermal throttling, examining how sustained inference workloads raise chip temperature and subsequently reduce sustained token-generation speeds. Readers interested in specific numbers, test configurations, or the exact models benchmarked should consult the original Zenn article for authoritative details, as the summary here is inferred from the title and series context.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (zenn.dev) をご確認ください。