逐次補完分解でLLMの安全機構を破る攻撃手法 One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
AI要約 本論文は、有害な要求を一語ずつ段階的に補完させる「Incremental Completion Decomposition」という新たなジェイルブレイク手法を提案。LLMの安全フィルタを回避し、複数モデルで高い攻撃成功率を示した。
EN This paper introduces Incremental Completion Decomposition, a jailbreak technique that bypasses LLM safety guardrails by having the model generate harmful content one word at a time, achieving high attack success rates across multiple models.