#rlhf — TECH Dashboard

Entries page 1/1 · 5 total

Mon, Jun 1 1 entries

paper research 3w ago ·

arxiv-cs-lg

LLMにおけるアライメントの痕跡を計測・局在化・除去する研究 Measuring, Localizing, and Ablating Alignment Signatures in LLMs

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約アライン済み言語モデルが示す「AIらしい文体」の内部表現上の起源を調査した論文。ポストトレーニングによる特徴的な表現パターンがモデル内のどの層に宿るかを特定し、それを選択的に除去する手法を提案している。

EN arXiv:2605.30526v1 Announce Type: new Abstract: Aligned language models often exhibit a recognizable AI-like style, yet its connection to post-training and internal representations remains poorly unde

#arxiv #paper #alignment +5

arxiv.org →

fallback

Thu, May 7 1 entries

NEW blog local-llm 1mo ago ·

huggingface-blog

vLLM V0からV1へ:RLにおける修正より正確性を優先 vLLM V0 to V1: Correctness Before Corrections in RL

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月7日 Published May 7

AI要約 ServiceNow AIがvLLMをV0からV1へ移行した際、強化学習トレーニングで生じた数値的な不一致と再現性の問題を分析。修正を急ぐ前に、ロジット計算やバッチ処理の正確性を検証する重要性を示した。

原文JA ServiceNow AIがvLLMをV0からV1へ移行した際、強化学習トレーニングで生じた数値的な不一致と再現性の問題を分析。修正を急ぐ前に、ロジット計算やバッチ処理の正確性を検証する重要性を示した。

#huggingface #open-model #vllm +3

huggingface.co →

vLLM V0 to V1: Correctness Before Corrections in RL

og fallback

Tue, Mar 31 1 entries

NEW blog local-llm 2mo ago ·

huggingface-blog

TRL v1.0公開: 進化に追従するポストトレーニングライブラリ TRL v1.0: Post-Training Library Built to Move with the Field

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 3月31日 Published Mar 31

AI要約 Hugging FaceがLLMポストトレーニング用ライブラリTRLのv1.0を公開。SFT/DPO/GRPOなど主要手法を統合し、APIの安定化、vLLM連携、マルチノード分散学習、VLM対応強化など、実運用に耐える成熟版に到達した。

原文JA Hugging FaceがLLMポストトレーニング用ライブラリTRLのv1.0を公開。SFT/DPO/GRPOなど主要手法を統合し、APIの安定化、vLLM連携、マルチノード分散学習、VLM対応強化など、実運用に耐える成熟版に到達した。

#huggingface #open-model #trl +5

huggingface.co →

fallback

Tue, Mar 10 1 entries

NEW blog local-llm 3mo ago ·

huggingface-blog

オープンソースRLライブラリ16種に学ぶ非同期学習の現状 Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 3月10日 Published Mar 10

AI要約 Hugging Faceが16のオープンソース強化学習ライブラリを比較調査し、LLM向けRL訓練における非同期化やトークン生成効率化の課題と設計パターンを整理。スループット向上のための学習・推論分離やオフポリシー対応の動向を解説する。

原文JA Hugging Faceが16のオープンソース強化学習ライブラリを比較調査し、LLM向けRL訓練における非同期化やトークン生成効率化の課題と設計パターンを整理。スループット向上のための学習・推論分離やオフポリシー対応の動向を解説する。

#huggingface #open-model #rlhf +3

huggingface.co →

fallback

Fri, Dec 19 1 entries

NEW blog claude 6mo ago ·

youtube-anthropic

AIモデルにおけるシコファンシー(おもねり)とは何か What is sycophancy in AI models?

通常 Normal 新着 · 技術記事 · Claude / Claude Code New · technical post · Claude / Claude Code 公開 12月19日 Published Dec 19

AI要約 AnthropicがAIモデルに見られる「シコファンシー(おもねり)」現象について解説。ユーザーに過度に同調・迎合する傾向が、なぜ生じ、どのような問題を引き起こすのかを取り上げ、信頼できるAI構築に向けた課題を提示している。

原文JA AnthropicがAIモデルに見られる「シコファンシー(おもねり)」現象について解説。ユーザーに過度に同調・迎合する傾向が、なぜ生じ、どのような問題を引き起こすのかを取り上げ、信頼できるAI構築に向けた課題を提示している。

#anthropic #youtube #sycophancy +3

youtube.com →

fallback

#rlhf 5 total

Entries page 1/1 · 5 total

LLMにおけるアライメントの痕跡を計測・局在化・除去する研究 Measuring, Localizing, and Ablating Alignment Signatures in LLMs

vLLM V0からV1へ:RLにおける修正より正確性を優先 vLLM V0 to V1: Correctness Before Corrections in RL

TRL v1.0公開: 進化に追従するポストトレーニングライブラリ TRL v1.0: Post-Training Library Built to Move with the Field

オープンソースRLライブラリ16種に学ぶ非同期学習の現状 Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries

AIモデルにおけるシコファンシー(おもねり)とは何か What is sycophancy in AI models?