HomeTags#jailbreak

#jailbreak page 1/1 · 1 total

TODAY 1 entries
NEW paper research 6h ago · arxiv-cs-cl

逐次補完分解でLLMの安全機構を破る攻撃手法 One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

AI要約 本論文は、有害な要求を一語ずつ段階的に補完させる「Incremental Completion Decomposition」という新たなジェイルブレイク手法を提案。LLMの安全フィルタを回避し、複数モデルで高い攻撃成功率を示した。

EN This paper introduces Incremental Completion Decomposition, a jailbreak technique that bypasses LLM safety guardrails by having the model generate harmful content one word at a time, achieving high attack success rates across multiple models.

arxiv.org