推論速度を最大 3 倍にした Gemma 4 の MTP drafter とは何か 推論速度を最大 3 倍にした Gemma 4 の MTP drafter とは何か
AI 3 行サマリ
TL;DR Gemma 4 の MTP は speculative decoding を target(本体モデル)と密結合した drafter(先読み用の小型モデル)で実装したもの speculative decoding は draft
※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。
元記事を読む
zenn.dev
本ページの本文・要約は AI による自動生成です。正確性は元記事 (zenn.dev) をご確認ください。