/

Home›Research›パラメータ動態からリスク評価へ:LLMファインチューニングにおけるサンプル単位の安全性劣化の定量化

パラメータ動態からリスク評価へ:LLMファインチューニングにおけるサンプル単位の安全性劣化の定量化 From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

arXiv cs.LG · arxiv.org · 2026/05/07 13:00 · 22h ago

AI 3 行サマリ

本研究は、LLMのファインチューニング時に各学習サンプルが安全性をどの程度劣化させるかを定量化する手法を提案する。
パラメータ更新の動態を解析しサンプル単位のリスクスコアを算出することで、有害な学習データを事前に特定可能にする。

English summary

This paper proposes a method to quantify how individual training samples degrade safety during LLM fine-tuning.
By analyzing parameter update dynamics, it derives sample-level risk scores that help identify harmful training data in advance.

※ この記事の本文は近日中に AI が生成して差し替わります。現時点では上記サマリをご参照ください。

#arxiv #paper #llm-safety #fine-tuning #risk-scoring

SourcearXiv cs.LGT2
Source Avg ★ 1.0
Type論文
Importance ★ 情報 (top 100% in Research)
Half-life 🏛️ 長期 (アーキテクチャ)
LangEN
Collected2026/05/08 10:00

元記事を読む

arxiv.org

本ページの本文・要約は AI による自動生成です。正確性は元記事 (arxiv.org) をご確認ください。

🔬 Research の他の記事もっと見る →

プレゼン用アイソメ図を画像生成AIで作るならどれが使いやすいか比較してみた

プレゼン用アイソメ図を画像生成AIで作るならどれが使いやすいか比較

プレゼン資料用のアイソメトリック図を生成AIで作成する際、どのモデルが使いやすいかを比較検証した記事。複数の画像生成AIを同一プロンプトで試し、出力品質や指示への忠実度、編集のしやすさを評価している。

CopilotをExcel/Wordの代筆AIだと思ってる企業はAI時代に取り残される

CopilotをExcel/Wordの代筆AIと捉える企業はAI時代に取り残される

Microsoft Copilotを単なるOffice文書の代筆ツールとして導入する企業は、AIの本質的価値を活かせず競争力を失うと警鐘を鳴らす論考。Copilotは業務プロセス全体の再設計やエージェント活用を前提とした基盤であり、活用観の転換が不可欠だと指摘する。

AIとのゲーム仕様設計で発生する用語揺れ問題と空間定義の固定化手法

結論ゲーム設計におけるAIとの壁打ちでは、「レーン・グリッド・列・軸」などの空間概念が揺れることが原因で仕様破綻が起きるため、用語辞書の事前固定と座標系定義の明文化が必須問題セッション変更後の仕様調整において、以下の問題が発生した：

不動産AIの「中国 vs アメリカ」：同じ業界、違う進化論

「同じ不動産AIでも、中国とアメリカで全然違うものが生まれている」——初めてこの違和感を覚えたのは、ある企業の資料を読んだ時だった。中国企業は「建物をどう建てるか」にAIを投入している。アメリカ企業は「建物をどう使うか」にAIを投入してい

llm-gemini 0.31

Release: llm-gemini 0.31 gemini-3.1-flash-lite is no longer a preview . Here's my write-up of the Gemini 3.1 Flash-Lite Preview model back in March. I don't believe this new non-preview model has chan

Tool: Big Words I'm using my vibe coded macOS presentations tool to put together a talk, and I wanted to add a slide with some text on it. The tool only accepts URLs, so I put together a quick page th

URL をコピーしました