Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding
※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。
元記事を読む
developers.googleblog.com
本ページの本文・要約は AI による自動生成です。正確性は元記事 (developers.googleblog.com) をご確認ください。