HomeTags#ai-safety

#ai-safety page 1/1 · 2 total

TODAY 1 entries
NEW paper research 5h ago · arxiv-cs-ai

本論文はAIエージェントの蒸留過程において、安全でない行動が潜在的に教師モデルから生徒モデルへ転移する「サブリミナル転移」現象を検証した研究… Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

AI要約 本論文はAIエージェントの蒸留過程において、安全でない行動が潜在的に教師モデルから生徒モデルへ転移する「サブリミナル転移」現象を検証した研究である。明示的に有害データを除外しても、微細な統計的痕跡を通じて不安全行動が引き継がれる可能性を示す。

EN This paper investigates subliminal transfer of unsafe behaviors during AI agent distillation, showing that student models can inherit undesirable traits from teachers even when explicit harmful data is filtered out, via subtle statistical signals.

arxiv.org
fallback
YESTERDAY 1 entries
NEW blog tech-news 18h ago · ars-technica

Anthropicが新AIモデル「Mythos」を発表し、高度なサイバー攻撃を加速させる懸念が浮上している Anthropic's Mythos AI model sparks fears of turbocharged hacking

AI要約 Anthropicが新AIモデル「Mythos」を発表し、高度なサイバー攻撃を加速させる懸念が浮上している。セキュリティ研究者らは、同モデルが脆弱性発見やエクスプロイト生成の能力を大幅に向上させる可能性を指摘し、悪用リスクへの対策を求めている。

EN Anthropic's newly unveiled Mythos AI model has raised concerns that it could turbocharge hacking by significantly improving vulnerability discovery and exploit generation, prompting security researchers to call for stronger safeguards against misuse.

arstechnica.com
fallback