#jailbreak — TECH Dashboard

NEW paper research 6h ago ·

arxiv-cs-cl

逐次補完分解でLLMの安全機構を破る攻撃手法 One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

AI要約本論文は、有害な要求を一語ずつ段階的に補完させる「Incremental Completion Decomposition」という新たなジェイルブレイク手法を提案。LLMの安全フィルタを回避し、複数モデルで高い攻撃成功率を示した。

EN This paper introduces Incremental Completion Decomposition, a jailbreak technique that bypasses LLM safety guardrails by having the model generate harmful content one word at a time, achieving high attack success rates across multiple models.

#arxiv #paper #jailbreak #llm-safety

arxiv.org →

#jailbreak page 1/1 · 1 total

逐次補完分解でLLMの安全機構を破る攻撃手法 One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety