ハイブリッド言語モデルにおけるコンポーネント対応型自己投機的デコーディング Component-Aware Self-Speculative Decoding in Hybrid Language Models
AI要約 ハイブリッド言語モデル(Transformer+SSM等)向けの自己投機的デコーディング手法を提案。モデル内のコンポーネントを認識して投機実行することで、追加のドラフトモデルなしに推論を高速化する研究。
EN This paper proposes a component-aware self-speculative decoding method for hybrid language models that combine Transformer and SSM components, accelerating inference without requiring a separate draft model.
og