M1 Pro 32GBでQwen3.6-35B-A3Bを本気で使ってみた正直な話 A hands-on report on running Alibaba's Qwen3.6-35B-A3B sparse MoE model on an M1 Pro MacBo…
- AlibabaのQwen3.6-35B-A3BをM1 Pro 32GBのMacで実際に動かした検証レポート。
- 35B総パラメータ・3Bアクティブのスパース MoEモデルながら、コンシューマー向けハードウェアでの実用性を率直に評価している。
English summary
- A hands-on report on running Alibaba's Qwen3.6-35B-A3B sparse MoE model on an M1 Pro MacBook with 32GB of unified memory, offering an honest assessment of real-world usability on consumer hardware.
大規模言語モデルをローカル環境で動かす試みが広がるなか、M1 Pro 32GBというコンシューマー寄りのハードウェアで最前線クラスのモデルがどこまで使えるのか——その問いに正面から向き合った検証記事が注目を集めている。
2026年4月、AlibabaのQwenチームはQwen3.6-35B-A3Bを公開した。総パラメータ数は35Bだが、Mixture-of-Experts(MoE)アーキテクチャを採用しているため、推論時に実際に活性化するパラメータは約3Bにとどまる。これがメモリ効率を大きく高めており、SWE-bench Verifiedで73.4%というスコアはコーディング系タスクでの実力を示している。フル稠密モデルの35Bを動かすには通常70GB超のVRAMが必要になるが、MoEの恩恵で32GBという現実的なメモリ容量での稼働が現実味を帯びた。
Appleシリコンの統合メモリアーキテクチャは、CPUとGPUがメモリを共有するため、NVIDIA製GPUのVRAM制約とは異なる独自の強みを持つ。M1 ProはメモリバンドワイスがM1より広く、量子化済みモデルの読み込みと推論においてコストパフォーマンスが高い選択肢とされてきた。Ollamaやllama.cppといったツールの成熟も追い風となり、数コマンドで大型モデルを試せる環境が整っている。
35B総パラメータ・3Bアクティブのスパース MoEモデルながら、コンシューマー向けハードウェアでの実用性を率直に評価している。
とはいえ、実用上のボトルネックはトークン生成速度だ。MoEモデルは活性化パラメータが少ない分、理論上は軽量だが、エキスパートのルーティングや重みのロードがメモリバンドワイスに依存するため、実測スループットは期待を下回るケースが多い。本記事の著者も生成速度について率直な評価を加えており、コーディング補助や調査用途には耐えられる水準でも、チャット的なリアルタイム応答感を求めると物足りなさを感じる場面があると指摘している。
周辺動向に目を向けると、同時期にMeta・Mistral・Googleもそれぞれ中〜大規模のMoEモデルを投入しており、ローカル実行を意識した量子化バリアントの競争が激化している。Qwen3.6シリーズはApache 2.0ライセンスで公開されており、商用利用を含む幅広い活用が可能な点も評価されている。M1 Pro 32GBという環境は「最強」ではないが、日常的なAI活用の入り口として依然として有力な選択肢であり続けていると見られる。
As the local LLM movement matures, one question keeps resurfacing: how far can a mid-range Apple Silicon Mac actually take you with a frontier-class model? A recently published Zenn article tackles this head-on, putting Alibaba's Qwen3.6-35B-A3B through its paces on an M1 Pro MacBook with 32GB of unified memory.
Released by Alibaba's Qwen team in April 2026, Qwen3.6-35B-A3B is a sparse Mixture-of-Experts model with 35 billion total parameters but only around 3 billion active during any single inference pass. That architectural choice dramatically reduces memory pressure compared to a dense 35B model, which would typically demand upward of 70GB of VRAM. The model's headline benchmark — 73.4% on SWE-bench Verified — signals serious coding capability, making it a genuinely interesting target for developers who want a capable local coding assistant without paying for cloud API calls.
Apple Silicon's unified memory architecture sits at the heart of why this experiment is even plausible. Unlike discrete GPUs with fixed VRAM pools, M1 Pro's memory is shared between CPU and GPU, and tools like llama.cpp and Ollama have gotten quite good at exploiting that bandwidth. The M1 Pro's memory bandwidth is meaningfully higher than the base M1, which helps when loading and routing through the sparse expert weights that MoE inference requires.
That said, the author is candid about real-world generation speed. MoE models are theoretically lighter, but expert routing and weight access patterns are memory-bandwidth-sensitive, and the actual tokens-per-second figures on M1 Pro 32GB reflect that. The conclusion is nuanced: for asynchronous tasks like code review, draft generation, or research summarization, the speed is workable. For interactive chat-like use where response latency matters, the experience can feel sluggish compared to API-backed models.
This experiment sits within a broader ecosystem shift. Meta, Mistral, and Google have all shipped competitive sparse or hybrid models in the same timeframe, and the race to produce well-quantized local variants has intensified. Qwen3.6 is released under Apache 2.0, which means commercial use is on the table — a meaningful differentiator from models with more restrictive licenses. The Hugging Face ecosystem already hosts multiple quantized versions, making it straightforward to find a variant that fits a given memory budget.
For developers considering their hardware options, the M1 Pro 32GB sits in an interesting middle ground. It is not the fastest local inference platform — M2 Ultra or dedicated workstations with large VRAM pools will outperform it — but it represents a broadly accessible, power-efficient option that can run surprisingly capable models. Whether that tradeoff makes sense depends heavily on workload: background summarization and code generation are likely fine; real-time pair-programming feels like a stretch. The honest framing of this report is part of its value, resisting the hype cycle in favor of reproducible, practical findings.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (zenn.dev) をご確認ください。