プロンプトベースTTSモデルにおける細粒度・発話内話し方スタイル制御の実現 Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models
AI要約 自然言語プロンプトで音声合成のスタイルを制御するTTSモデルで、発話内の細粒度かつ動的なスタイル制御を可能にする手法を提案。
EN arXiv:2605.27376v1 Announce Type: new Abstract: While prompt-based text-to-speech (TTS) models enable natural language-driven speaking style control, they often provide limited fine-grained control an
og fallback