HomeTags#policy-optimization

Tag timeline

#policy-optimization 1 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 1
Showing 1
Page 1/1
Updated 1h ago

Entries page 1/1 · 1 total

Mon, Jun 1 1 entries
blog local-llm 2w ago · zenn-llm

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO JA GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月1日 Published Jun 1

AI要約 ! 最先端AIを技術の中身まで日本語で読み解く「AIウォッチ」の深掘り記事です。一次情報(arXiv 2507.18071 / Qwen公式ブログ)を当たって書いています。 推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げ

fallback