大規模言語モデルにおける事前学習データ露出:メンバーシップ推定・データ汚染・セキュリティへの影響に関するサーベイ Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27
AI要約 LLMの事前学習データ露出問題を包括的に調査。メンバーシップ推定攻撃、データ汚染、セキュリティリスクを体系的に整理したサーベイ論文。
EN arXiv:2605.26133v1 Announce Type: new Abstract: Large Language Models (LLMs) have become the predominant paradigm in NLP, advancing both research and industry. As model sizes and pretraining data grow
og fallback