HomeTags#quantization

Tag timeline

#quantization 3 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 3
Showing 3
Page 1/1
Updated 1h ago

Entries page 1/1 · 3 total

Tue, Jun 2 2 entries
paper research 2w ago · arxiv-cs-lg

BitsMoE: スペクトルエネルギーを活用したMoE LLMの効率的ビット割り当て量子化 BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月2日 Published Jun 2

AI要約 BitsMoEは、MoE(Mixture-of-Experts)大規模言語モデルの量子化において、重み行列のスペクトルエネルギー分布を指標にビット幅を層ごとに動的配分する手法を提案する。メモリ効率を高めながら精度低下を抑えることを目指した研究論文。

EN arXiv:2606.00079v1 Announce Type: new Abstract: Mixture-of-Experts (MoE) large language models reduce per-token computation through sparse expert activation, but their deployment remains memory-intens

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization og fallback
blog local-llm 2w ago · zenn-llm

一番安いGPUでも動くLLM「bitnet-b1.58-2B-4T」をT4で試す 一番安いGPUでも動くLLM bitnet-b1.58-2B-4T

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月2日 Published Jun 2

AI要約 MicrosoftがリリースしたBitNet b1.58 2B 4Tは、重みを1.58ビットに量子化した軽量LLMで、Google ColabのT4など安価なGPUでも快適に動作する。HuggingFace Transformersから数行のコードで利用可能で、ローカルLLM入門として注目されている。

EN Microsoft's BitNet b1.58 2B 4T is a heavily quantized LLM that runs comfortably on budget GPUs like the T4, and can be loaded in just a few lines via HuggingFace Transformers, making it an accessible entry point for local LLM experimentation.

fallback
Tue, May 26 1 entries
blog local-llm 3w ago · qiita-llm

ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月26日 Published May 26

AI要約 ローカル環境でLLMを動かす際の量子化手法とメモリ最適化の選択肢を整理し、リソース制約とモデル精度のトレードオフを解説した実践的記事。

EN A practical Qiita article exploring quantization techniques and memory optimization strategies for running LLMs locally, examining the tradeoffs between resource constraints and model quality.

ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ og fallback