HomeGemini / GemmaGoogle TPUでLLM推論を3倍高速化、拡散型投機デコードを採用
Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding
Gemini / Gemma ⚠ 古い情報の可能性

Google TPUでLLM推論を3倍高速化、拡散型投機デコードを採用 Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding

元記事を読む 古い情報の可能性
AI 3 行サマリ
  • Googleは、TPU上でのLLM推論を高速化するため、拡散モデルに着想を得た投機的デコード手法を発表した。
  • 複数トークンを並列に予測・検証することで、最大3倍のスループット向上を実現したという。
English summary
  • Researchers at UCSD have successfully implemented DFlash, a block-diffusion speculative decoding method, on Google TPUs to bypass the sequential bottlenecks of traditional autoregressive drafting.
  • By

Googleは、TPU上での大規模言語モデル(LLM)推論を最大3倍高速化する新たな投機的デコード手法を発表した。拡散モデルの考え方を取り入れたこのアプローチは、生成AIの応答速度とコスト効率を同時に改善する試みとして注目される。

従来の自己回帰型デコードでは、トークンを1つずつ順番に生成するためGPUやTPUの並列計算性能を十分に活用できないという課題があった。投機的デコード(speculative decoding)はこの制約を緩和する手法として知られ、軽量なドラフトモデルが先回りして複数トークンを予測し、本体モデルが一括検証することで実効スループットを高める。

今回Googleが提案するのは、画像生成で広く使われる拡散モデルの反復的な精緻化プロセスに着想を得た亜種である。複数のトークン候補を並列にノイズ除去のように洗練していくことで、TPUのシストリックアレイが得意とする行列演算を効率的に埋められるとされる。報告では最大3倍のスループット改善が示されており、特にバッチ処理やサーバングのコスト削減効果が大きい可能性がある。

Googleは、TPU上でのLLM推論を高速化するため、拡散モデルに着想を得た投機的デコード手法を発表した。
✨ Gemini / Gemma · 本記事のポイント

投機的デコードはOpenAIやAnthropic、DeepMindの研究でも活発に研究されている領域で、Medusa、EAGLE、Lookahead Decodingなど類似手法が次々登場している。GoogleTPU専用最適化と組み合わせて性能を引き出した点は、NVIDIA GPU中心のエコシステムに対する差別化要因となり得ると見られる。Geminiを含む自社モデルのサービング基盤に応用されていく可能性が高い。

Google has unveiled a new diffusion-inspired speculative decoding technique that delivers up to 3X faster LLM inference on its TPU hardware. The work targets one of the most pressing bottlenecks in production generative AI: the cost and latency of serving large autoregressive models at scale.

Standard autoregressive decoding generates tokens one at a time, leaving much of the parallel compute capacity of modern accelerators idle. Speculative decoding addresses this by using a lightweight draft model to propose several future tokens, which the larger target model then verifies in a single parallel forward pass. When the drafts are accurate, multiple tokens are accepted per step, multiplying effective throughput without changing the output distribution.

Google's twist borrows from diffusion models, which iteratively refine noisy candidates into coherent outputs. Rather than producing a strict left-to-right draft, the system refines a block of candidate tokens in parallel, in a manner well suited to the matrix-heavy systolic array architecture of TPUs. The reported 3X speedup suggests meaningful gains in tokens-per-second and, consequently, lower serving costs for high-throughput workloads such as chat assistants, code completion, and batch summarization.

Speculative decoding has become one of the most active areas of LLM systems research. Variants such as Medusa, EAGLE, Lookahead Decoding, and self-speculative approaches have appeared from academic labs and industry players including Meta, Together AI, and Anthropic. Each tries to balance draft quality, verification overhead, and hardware utilization. Diffusion-style parallel refinement is a natural fit for accelerators that prefer dense, predictable compute patterns, and TPUs in particular benefit from workloads that minimize sequential dependencies.

Researchers at UCSD have successfully implemented DFlash, a block-diffusion speculative decoding method, on Google TPUs to bypass the sequential bottlenecks of traditional autoregressive drafting.
✨ Gemini / Gemma · Key takeaway

The announcement also highlights Google's continued strategy of co-designing models, software, and silicon. While much of the open ecosystem is optimized for NVIDIA GPUs and CUDA, Google has invested heavily in JAX, XLA, and Pallas to extract performance from TPUs. Techniques like this one likely underpin the serving infrastructure for Gemini and may eventually be exposed through Vertex AI or the Gemini API, although Google has not detailed a specific rollout. For developers evaluating inference platforms, the result is another data point suggesting TPUs can be competitive on cost-per-token for large-scale deployments, particularly when paired with Google's proprietary optimizations.

It remains to be seen how the approach generalizes across model sizes, context lengths, and decoding settings such as temperature and beam search. Independent benchmarks and, ideally, a published technical report would help the community assess where the 3X figure holds and where trade-offs emerge. Still, the direction reinforces a broader industry trend: the next wave of LLM efficiency gains will come not just from smaller models or quantization, but from rethinking the decoding loop itself.

  • SourceGoogle Developers BlogT1
  • Source Avg ★ 2.2
  • Typeブログ
  • Importance ★ 通常 (top 98% in Gemini / Gemma)
  • Half-life ⏱️ 短命 (ニュース)
  • LangEN
  • Collected2026/05/31 10:00
元記事を読む developers.googleblog.com

本ページの本文・要約は AI による自動生成です。正確性は元記事 (developers.googleblog.com) をご確認ください。

Gemini / Gemma の他の記事 もっと見る →

URL をコピーしました