HomeTags#foundation-models

Tag timeline

#foundation-models 3 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 3
Showing 3
Page 1/1
Updated 1h ago

Entries page 1/1 · 3 total

Tue, Jun 2 1 entries
paper research 2w ago · arxiv-cs-lg

一般化レイリー商最適化による基盤モデルの能力保持型ファインチューニング Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月2日 Published Jun 2

AI要約 基盤モデルをファインチューニングすると事前学習で獲得した汎用能力が損なわれる問題に対し、一般化レイリー商最適化を用いて下流タスクへの適応と基盤能力の保持を両立する手法を提案した研究。

EN arXiv:2606.00132v1 Announce Type: new Abstract: While finetuning effectively adapts foundation models to specialized downstream tasks, it can degrade nontarget capabilities acquired during pretraining

Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization og fallback
Mon, Jun 1 1 entries
paper research 2w ago · arxiv-cs-lg

NumLeak: 公開数値ベンチマークが基盤モデルの潜在ラベルになる問題 NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 arXiv論文「NumLeak」は、公開数値ベンチマークが事前学習データに混入することで、モデル評価が記憶の再現を測定している可能性を指摘する。日付条件付き評価を用いることで、真の汎化能力と暗記を区別する手法を提案している。

EN arXiv:2605.30393v1 Announce Type: new Abstract: Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample

fallback
Mon, May 25 1 entries
paper research 3w ago · arxiv-cs-lg

MARGIN: マルチエージェント基盤モデル協調のためのランタイム信頼度キャリブレーション MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月25日 Published May 25

AI要約 複数の基盤モデルエージェントが協調する環境で、コーディネーターが各エージェントの応答をどれだけ信頼すべきかを実行時にキャリブレーションする手法MARGINを提案。

EN MARGIN proposes a runtime confidence calibration method for multi-agent deployments, helping a coordinator decide which foundation model agent's response to trust.

fallback