HomeTags#reinforcement-learning

Tag timeline

#reinforcement-learning 11 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 11
Showing 11
Page 1/1
Updated 1h ago

Entries page 1/1 · 11 total

Thu, Jun 4 1 entries
blog tech-news 2w ago · nvidia-blog

NVIDIAが発表:ロボット把持・自律走行・エージェント学習を同時に進化させる研究成果 NVIDIA Research Unlocks Advanced Grasping, Smarter Autonomous Driving and Agent Training at Scale

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Industry & Policy Medium priority · technical post · Industry & Policy 公開 6月4日 Published Jun 4

AI要約 NVIDIAはCVPR 2026にて、未知のツールでも対応できるロボット把持技術、より賢い自律走行システム、そして大規模エージェント訓練手法に関する複数の研究成果を発表した。いずれもロボティクスとAIの実用化加速を狙った取り組みだ。

EN What makes a robot gripper useful isn’t that it can pick up one object — it’s that it can pick up the next one, and the one after that, with a tool it’s never held before. What makes an autonomous veh

fallback
Mon, Jun 1 3 entries
blog local-llm 2w ago · zenn-llm

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO JA GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月1日 Published Jun 1

AI要約 ! 最先端AIを技術の中身まで日本語で読み解く「AIウォッチ」の深掘り記事です。一次情報(arXiv 2507.18071 / Qwen公式ブログ)を当たって書いています。 推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げ

fallback
paper research 2w ago · arxiv-cs-lg

VeriGate: 検証器によるゲーティングでGRPOのステップレベル監督を強化する手法 VeriGate: Verifier-Gated Step-Level Supervision for GRPO

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 VeriGateは、GRPO(グループ相対方策最適化)における結果報酬の粗さを補うため、ステップレベルの検証器ゲーティングを導入した手法。推論モデルの学習効率と精度を高めることを目指している。

EN arXiv:2605.30451v1 Announce Type: new Abstract: Group Relative Policy Optimization (GRPO) is an effective recipe for training reasoning models with verifier-based outcome rewards, but its supervision

fallback
paper research 2w ago · arxiv-cs-lg

分離可能ダイナミクス向けの状態拡張とコンセンサスによるスケーラブルな制約付きMARL Scalable Constrained Multi-Agent Reinforcement Learning via State Augmentation and Consensus for Separable Dynamics

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 複数エージェントが制約を守りながら協調学習する分散型MARLフレームワークを提案。状態拡張ポリシー学習と分散コンセンサスを組み合わせ、エージェント数が増えてもスケールする手法を実現している。

EN arXiv:2605.30461v1 Announce Type: new Abstract: We present a distributed approach for constrained Multi-Agent Reinforcement Learning (MARL) that combines state-augmented policy learning with distribut

fallback
Wed, May 27 1 entries
paper research 3w ago · arxiv-cs-cl

RICE-PO: 検索インタラクションを推論エージェントの信用シグナルに変換する手法 RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 言語エージェントの反復的な検索行動をクレジットシグナルとして活用し、推論能力を強化するRICE-POを提案した研究論文。

EN arXiv:2605.26352v1 Announce Type: new Abstract: Retrieval is increasingly moving from one-shot matching toward interactive reasoning, where language agents iteratively inspect evidence, reformulate qu

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents og fallback
Wed, May 13 1 entries
blog tech-news 1mo ago · nvidia-blog

NVIDIAとIneffable Intelligence、強化学習インフラの未来構築に向けて提携 NVIDIA, Ineffable Intelligence Team Up to Build the Future of Reinforcement Learning Infrastructure

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Industry & Policy Medium priority · technical post · Industry & Policy 公開 5月13日 Published May 13

AI要約 NVIDIAとIneffable Intelligenceが強化学習インフラの共同構築に向けたエンジニアリングレベルの協業を開始した。

EN Reinforcement-learning agents — AI systems that learn by trial and error — can convert computation into new knowledge. That’s the focus of a new engineering-level collaboration between NVIDIA and Inef

NVIDIA, Ineffable Intelligence Team Up to Build the Future of Reinforcement Learning Infrastructure og fallback
Thu, Apr 16 1 entries
blog local-llm 2mo ago · huggingface-blog

Ecom-RLVE: ECチャット型エージェント向け検証可能な強化学習環境 Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 4月16日 Published Apr 16

AI要約 Hugging Faceブログで紹介されたEcom-RLVEは、Eコマースの対話エージェントを訓練するための適応的かつ検証可能な強化学習環境である。実際の購買シナリオに基づき、エージェントの応答を客観的に評価できる報酬設計を採用し、対話品質と業務遂行能力の両立を狙う。

EN Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents

fallback
Thu, Mar 19 1 entries
NEW changelog cursor 3mo ago · cursor-changelog

Cursor、コーディング向け新モデル Composer 2 を発表 Composer 2

重要度 Medium Medium priority 重要度 Medium · 変更履歴 · AI Editors Medium priority · changelog · AI Editors 公開 3月19日 Published Mar 19

AI要約 CursorはComposer 2を発表した。エージェント型コーディング向けに設計された新モデルで、強化学習でトレーニングされ、フロンティアモデル並みの知能をより高速に提供するとされる。Cursorアプリ内で利用可能。

EN Composer 2 is now available in Cursor: frontier-level coding performance with strong results on challenging coding tasks.

fallback
Mon, Mar 9 1 entries
NEW blog gemini 3mo ago · google-deepmind

AlphaGo 10周年:ゲームから生物学へ広がるDeepMindの軌跡 From games to biology and beyond: 10 years of AlphaGo’s impact

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 3月9日 Published Mar 9

AI要約 DeepMindはAlphaGoの登場から10年を振り返り、囲碁での勝利が強化学習やAI研究全体に与えた影響を総括した。後継のAlphaZeroやAlphaFoldを通じ、ゲームAIの手法が生物学や数学など科学領域へと展開していった経緯を紹介している。

EN Ten years since AlphaGo, we explore how it is catalyzing scientific discovery and paving a path to AGI.

From games to biology and beyond: 10 years of AlphaGo’s impact media fallback
Tue, Jan 27 1 entries
blog local-llm 4mo ago · huggingface-blog

GPT-OSSにエージェント型RL学習を適用する実践的振り返り Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 1月27日 Published Jan 27

AI要約 LinkedInがGPT-OSSモデルへのエージェント型強化学習適用を振り返り、訓練パイプライン構築・安定化の工夫・課題と解決策を解説。

EN Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

fallback
Mon, Oct 6 1 entries
🔥 HOT blog codex 8mo ago · openai-blog

OpenAI、AgentKit・新Evals・エージェント向けRFTを発表 Introducing AgentKit, new Evals, and RFT for agents

重要度 High High priority 重要度 High · 技術記事 · OpenAI / Codex High priority · technical post · OpenAI / Codex 公開 10月6日 Published Oct 6

AI要約 OpenAIがエージェント開発を加速する3つの新ツール「AgentKit」「拡張Evals」「エージェント向けRFT」をリリースし、プロトタイプから本番運用までを一貫支援する。

EN Today, we’re releasing new tools to help developers go from prototype to production faster: AgentKit, expanded evals capabilities, and reinforcement fine-tuning for agents.

fallback