LIVE · 05/07
tech-news任天堂、Switch 2向け新作「Star Fox」を発表Nintendo announces a new Star Fox for the Switch 2[the-verge]local-llmRELv0.30.0-rc3v0.30.0-rc3[ollama-releases]local-llmRELv0.30.0-rc2v0.30.0-rc2[ollama-releases]local-llmRELv0.30.0-rc1v0.30.0-rc1[ollama-releases]local-llmRELv0.30.0-rc0v0.30.0-rc0[ollama-releases]copilotRELGitHub Copilot CLIのEnterprise管理プラグインがpublic preview開始Enterprise-managed plugins in GitHub Copilot CLI are now in public preview[github-changelog]copilotRELGitHub Copilot in Visual Studio Code、4月リリースGitHub Copilot in Visual Studio Code, April releases[github-changelog]copilotRELSearch and filter bar for repository security advisoriesSearch and filter bar for repository security advisories[github-changelog]local-llmLLMとは何か、を有限列挙で証明する:Layer-0 機能必然性定理 v3.0 公開(no English title)[qiita-llm]tech-newsSpaceX、世界で最も成功したロケットFalcon 9から移行開始SpaceX is starting to move on from the world's most successful rocket[ars-technica]tech-newsAnthropic、SpaceXとの契約でClaude Codeの利用上限を引き上げAnthropic raises Claude Code usage limits, credits new deal with SpaceX[ars-technica]tech-newsTSMC、AIチップ需要急増で風力発電に注力、台湾はエネルギー危機に直面TSMC taps wind power as AI chip demand soars, Taiwan feels energy crunch[ars-technica]tech-news裁判所、ISPが反対したFCCの差別禁止規則を無効化Court strikes down FCC anti-discrimination rule opposed by Internet providers[ars-technica]tech-newsMythosに動揺、トランプが急にAI安全性テストを支持Spooked by Mythos, Trump suddenly realized AI safety testing might be good[ars-technica]tech-newsMicrosoftのAIデータセンター拡大、クリーン電力目標と衝突Microsoft’s AI data center push is colliding with its clean power goals[techcrunch]tech-newsRobinhoodのベンチャーファンド新規上場、個人投資家15万人超が参加とCEORobinhood’s venture fund IPO attracted 150,000+ retail investors, CEO says[techcrunch]tech-newsGreg Brockmanが語るElon MuskのOpenAI離脱の経緯How Elon Musk left OpenAI, according to Greg Brockman[techcrunch]tech-news米司法省、ランサムウェア集団がロシア政府DBに侵入と発表DOJ says ransomware gang tapped into Russian government databases[techcrunch]tech-newsAI評価スタートアップBraintrustが侵害を確認、全顧客に鍵更新を要請AI evaluation startup Braintrust confirms breach, tells every customer to rotate sensitive keys[techcrunch]tech-newsMira Murati、法廷でSam Altmanの言葉を信用できなかったと証言Mira Murati tells the court that she couldn’t trust Sam Altman’s words[the-verge]tech-news報道: SpaceXのIPOはMuskに無制限の権限を与え投資家訴訟を禁止Report: SpaceX IPO gives Musk unchecked power and forbids investor lawsuits[ars-technica]tech-newsGoogle DeepMind、EVE OnlineとAIモデル検証で提携Google DeepMind partners with EVE Online for AI model testing[ars-technica]tech-newsNative Instruments、Komplete 26で新シンセや実験的ピアノ音源を追加Native Instruments Komplete 26 adds weird new synths and experimental piano sounds[the-verge]tech-newsFDAのワクチン有益性示す研究、トランプ政権が検閲FDA vaccine studies censored by Trump admin after finding benefits of shots[ars-technica]
Today 151
Total 500
Major 27
Sources 41
Updated just now
Daily Summary

今日の更新

Today's Updates

Today 151 ▲ 48%
Yesterday 102
7-day 355
Last 7 days
15
18
10
15
44
102
151
05/01 05/02 05/03 05/04 05/05 05/06 05/07
主要な更新 Top stories 05/07 · 10 件
  1. 01 tech-news 任天堂、Switch 2向け新作「Star Fox」を発表 Nintendo announces a new Star Fox for the Switch 2 任天堂はSwitch 2向けの新作『Star Fox』を発表した。シリーズ最新作として、同社の人気宇宙シューティングシリーズが次世代機で復活することになる。詳細な発売日やゲームプレイ内容は今後明らかにされる見込み。 Nintendo has announced a new Star Fox title for the upcoming Switch 2 console, marking the return of the iconic space shooter franchise on the next-generation hardware. Further details on release date and gameplay are expected later. [the-verge]
  2. 02 local-llm REL v0.30.0-rc3 v0.30.0-rc3 ci: fix windows rocm build [ollama-releases]
  3. 03 local-llm REL v0.30.0-rc2 v0.30.0-rc2 ci: fix windows llama-server build [ollama-releases]
  4. 04 local-llm REL v0.30.0-rc1 v0.30.0-rc1 ci: fix windows MLX build [ollama-releases]
  5. 05 local-llm REL v0.30.0-rc0 v0.30.0-rc0 refine implementation [ollama-releases]
  6. 06 copilot REL GitHub Copilot CLIのEnterprise管理プラグインがpublic preview開始 Enterprise-managed plugins in GitHub Copilot CLI are now in public preview GitHub Copilot CLIにおけるEnterprise管理プラグイン機能がpublic previewとして公開されました。Enterprise管理者は組織全体で利用可能なプラグインを集中管理でき、開発者のCLI環境でガバナンスとセキュリティを確保できます。 Enterprise-managed plugins for GitHub Copilot CLI are now available in public preview, allowing enterprise administrators to centrally manage and distribute approved plugins across their organization for improved governance and security. [github-changelog]
  7. 07 copilot REL GitHub Copilot in Visual Studio Code、4月リリース GitHub Copilot in Visual Studio Code, April releases Visual Studio CodeのGitHub Copilotの2026年4月リリースが公開されました。エージェント機能やチャット体験、開発者向けツールの改善など複数のアップデートが含まれています。 The April 2026 release of GitHub Copilot in Visual Studio Code introduces multiple updates, including improvements to agent capabilities, chat experience, and developer tooling. [github-changelog]
  8. 08 copilot REL Search and filter bar for repository security advisories Search and filter bar for repository security advisories You can now search and filter security advisories directly from your repository’s Security tab. Use the new search bar and filters at the top of the advisory list to find… The post Search and filter b [github-changelog]
  9. 09 local-llm LLMとは何か、を有限列挙で証明する:Layer-0 機能必然性定理 v3.0 公開 (no English title) LLMとは何か、を有限列挙で証明する:Layer-0 機能必然性定理 v3.0 公開 現代のLarge Language Modelは、6つの機能役割を必ず実装する。1つでも、その機能等価物まで含めて欠ければ、それはもうLLMではない。これ [qiita-llm]
  10. 10 tech-news SpaceX、世界で最も成功したロケットFalcon 9から移行開始 SpaceX is starting to move on from the world's most successful rocket SpaceXは打ち上げ実績で他を圧倒するFalcon 9ロケットからの移行を始めた。次世代機Starshipの開発に注力し、運用の主力を段階的に切り替えていく方針で、宇宙打ち上げ市場の構図に大きな変化をもたらす可能性がある。 SpaceX is beginning to transition away from Falcon 9, the most successful rocket in history, as it shifts focus to its next-generation Starship vehicle. The move signals a major shift in the global launch market. [ars-technica]
🔥 Today's Top 3 importance × recency
  1. 任天堂、Switch 2向け新作「Star Fox」を発表 Nintendo announces a new Star Fox for the Switch 2 the-verge 10h ago
  2. v1.1.5-pre v1.1.5-pre zed-releases 1d ago
  3. Cursorに「git clone」だけでPC乗っ取り、CVSS 9.9の重大脆弱性 A critical CVSS 9.9 vulnerability in Cursor allows arbitrary code execution merely by git … qiita-cursor 4d ago

Timeline 500 total · page 1/17

TODAY 30 entries
NEW blog local-llm 1h ago · qiita-llm

16GB VRAMでローカルAIエージェントを構築する方法 This article explains how to build a local AI agent on a 16GB VRAM GPU, covering model sel…

AI要約 16GBのVRAM環境でローカルLLMを使ったAIエージェントを構築する手法を紹介する記事。限られたGPUリソース下でモデル選定や実装方法を工夫し、実用的なエージェントを動作させるアプローチを解説している。

EN This article explains how to build a local AI agent on a 16GB VRAM GPU, covering model selection and implementation techniques to run a practical agent under limited hardware resources.

qiita.com
16GB VRAMでローカルAIエージェントを作る og
NEW blog mcp 1h ago · qiita-mcp

Google Cloud ADK + ClaudeでAIエージェント本番運用【30分ワークショップ】 A 30-minute workshop guide to building and operating production AI agents using Google Clo…

AI要約 Google CloudのAgent Development Kit(ADK)とClaudeを組み合わせ、AIエージェントを本番環境で運用する方法を30分のワークショップ形式で解説。セットアップから実装、デプロイまでの実践的な手順を紹介する。

EN A 30-minute workshop guide to building and operating production AI agents using Google Cloud's Agent Development Kit (ADK) combined with Claude, covering setup, implementation, and deployment steps.

qiita.com
Google Cloud ADK + Claude で始めるAIエージェント本番運用【30分ワークショップ】 og
NEW blog local-llm 1h ago · qiita-llm

Claude CodeでGitブランチ名を自動命名するSkillを作成 The author created a Claude Code Skill that automatically generates Git branch names follo…

AI要約 Claude Code向けに、Gitのブランチ名を自動で命名するSkillを開発した事例を紹介。命名規則に沿った適切なブランチ名を生成することで、開発作業の効率化と命名の統一を図る試み。

EN The author created a Claude Code Skill that automatically generates Git branch names following naming conventions, aiming to streamline development workflow and standardize branch naming.

qiita.com
【Claude Code】 Gitブランチ名を命名するSkill作ってみた og
NEW blog claude 2h ago · qiita-claude

AI評価指標「SWE-bench」とは何か?その仕組みを解説 This article explains SWE-bench, a benchmark for evaluating AI coding models

AI要約 AIコーディングモデルの性能評価に使われるベンチマーク「SWE-bench」について解説した記事。GitHubの実際のIssueとPRを基にした課題集で、AIがバグ修正や機能追加を実施できるかを評価する仕組みとその意義を紹介している。

EN This article explains SWE-bench, a benchmark for evaluating AI coding models. Built from real GitHub issues and pull requests, it measures whether AI can actually fix bugs and implement features in real-world codebases.

qiita.com
AI評価指標の「SWE-bench」ってそもそも何なのか? og
NEW blog local-llm 2h ago · qiita-llm

AI歌詞生成でありがちな陳腐表現を減らす工夫 A practical guide to reducing cliché expressions (like 'night sky' or 'light') frequently …

AI要約 AIによる歌詞生成で頻出する「夜空」「光」などの陳腐な表現を減らすための実践的な工夫を紹介。プロンプト設計や禁止語の指定、語彙の多様化などのテクニックを通じて、より独創的で自然な歌詞生成を目指した取り組みをまとめている。

EN A practical guide to reducing cliché expressions (like 'night sky' or 'light') frequently produced by AI lyric generators, covering prompt design tips, banned word lists, and vocabulary diversification techniques for more original output.

qiita.com
AI歌詞生成でありがちな陳腐表現を減らすためにやったこと og
NEW blog local-llm 2h ago · qiita-llm

モデルの一部を破壊しても別タスクは無傷? SRAで脳のモジュール性を検証 This article presents a hacking experiment that intentionally destroys parts of a model as…

AI要約 SRA(Sparse Representation Analysis)における脳のようなモジュール性を検証するため、特定タスクに関わる部分を意図的に破壊し他タスクへの影響を調べたハッキング実験を紹介する記事。タスクごとに独立した処理経路が存在することを実証する試みである。

EN This article presents a hacking experiment that intentionally destroys parts of a model associated with specific tasks to test brain-like modularity in SRA (Sparse Representation Analysis), demonstrating that different tasks rely on independent processing pathways.

qiita.com
モデルの一部を破壊しても別タスクは無傷? SRAの「脳のモジュール性」を証明するハッキング実験 og
NEW blog tech-news 3h ago · techcrunch

AI経済を築いた5人の専門家が語る、軋み始めた現状 Five architects of the AI economy explain where the wheels are coming off

AI要約 AI経済の構築に関わった5人の専門家が、現在のAI業界に生じている問題や歪みについて語る記事。インフラ投資の過熱や持続可能性への懸念など、AIブームの裏で見え始めた課題を浮き彫りにする内容。

EN Five key architects of the AI economy share their perspectives on emerging cracks in the industry, discussing concerns over infrastructure overspending, sustainability, and structural issues hidden behind the ongoing AI boom.

techcrunch.com
Five architects of the AI economy explain where the wheels are coming off og
NEW blog claude 4h ago · qiita-claude

skillsに全振りしdocs/rules/commandsを削るコスパ重視ハーネス実装案 Proposes a cost-efficient Claude Code harness design that consolidates functionality into …

AI要約 Claude Codeのハーネス設計において、docsやrules、commandsを最小化し、skillsに機能を集約することでコスパを高める実装案を提案。冗長なコンテキストを削減しトークン効率を改善する具体的な構成方針を解説している。

EN Proposes a cost-efficient Claude Code harness design that consolidates functionality into skills while minimizing docs, rules, and commands. Outlines a concrete configuration to reduce redundant context and improve token efficiency.

qiita.com
skillsに全振りしてdocs,rules,commandsを削るコスパ重視のハーネス実装案 og
NEW paper research 5h ago · arxiv-cs-ai

LCM: ロスレスなコンテキスト管理手法 LCM: Lossless Context Management

AI要約 本論文はLLM向けの新しいコンテキスト管理手法「LCM(Lossless Context Management)」を提案する。長文コンテキストを情報損失なく効率的に扱うことを目指し、推論性能とメモリ効率の両立を図る。

EN This paper proposes LCM (Lossless Context Management), a new approach for handling long contexts in LLMs without information loss, aiming to balance inference performance and memory efficiency.

arxiv.org
LCM: Lossless Context Management og
NEW paper research 5h ago · arxiv-cs-ai

文脈が逆効果に:マルチエージェント設計探索における知識転移のクロスオーバー効果 When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

AI要約 本研究はマルチエージェント設計探索における知識転移の効果を分析し、文脈情報の共有が必ずしも性能向上に寄与せず、逆に探索を阻害するクロスオーバー効果が生じることを示す。エージェント間の知識共有のタイミングと量が成果を左右する。

EN This paper investigates knowledge transfer in multi-agent design exploration, revealing a crossover effect where shared context can hinder rather than help performance. The timing and quantity of inter-agent knowledge sharing critically determine outcomes.

arxiv.org
When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration og
NEW paper research 5h ago · arxiv-cs-ai

AuditRepairBench: エージェント修復における評価チャネル順位不安定性のためのペア実行トレースコーパス AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair

AI要約 エージェント修復タスクにおける評価器(Evaluator)チャネルのランキング不安定性を検証するため、ペアになった実行トレースのコーパスAuditRepairBenchを提案。評価チャネル間の順位ばらつきを定量化し、修復評価の信頼性を分析する。

EN AuditRepairBench introduces a paired-execution trace corpus designed to study evaluator-channel ranking instability in agent repair tasks, quantifying inconsistencies across evaluation channels to assess repair benchmark reliability.

arxiv.org
AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair og
NEW paper research 5h ago · arxiv-cs-ai

TSCG: エージェント型LLM向けツールスキーマの決定論的コンパイル TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments

AI要約 エージェント型LLMデプロイにおけるツール呼び出しの信頼性を高めるため、ツールスキーマを決定論的にコンパイルする手法TSCGを提案。スキーマの曖昧性を排除し、一貫したツール利用を可能にする研究。

EN This paper introduces TSCG, a deterministic compilation approach for tool schemas in agentic LLM deployments, aiming to remove schema ambiguity and enable more reliable and consistent tool invocation by language model agents.

arxiv.org
TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments og
NEW paper research 5h ago · arxiv-cs-ai

堅牢なLLM事後学習へ:強化ファインチューニングの自動障害管理 Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

AI要約 本論文は強化学習によるLLMファインチューニング(RFT)における障害を自動的に検出・管理する手法を提案する。学習中のクラッシュや報酬崩壊などの失敗ケースに対処することで、安定した事後学習を実現し、モデルの堅牢性を高める。

EN This paper proposes automatic failure management techniques for reinforcement fine-tuning (RFT) of LLMs, addressing issues like training crashes and reward collapse to enable more robust and stable post-training pipelines.

arxiv.org
Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning og
NEW paper research 5h ago · arxiv-cs-ai

ソフトウェア工学における説明責任あるAIエージェント:利用規約分析と研究ロードマップ Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap

AI要約 本論文はソフトウェア工学で利用されるAIエージェントの利用規約(ToS)を分析し、責任の所在や説明責任の課題を明らかにする。著者らは現状の問題点を整理し、説明責任あるエージェント実現に向けた研究ロードマップを提示している。

EN This paper analyzes the Terms of Service of AI agents used in software engineering, identifying gaps in accountability and responsibility, and proposes a research roadmap toward building accountable agents in SE workflows.

arxiv.org
NEW paper research 5h ago · arxiv-cs-ai

検索を超えて: コード検索のためのマルチタスクベンチマークとモデル Beyond Retrieval: A Multitask Benchmark and Model for Code Search

AI要約 コード検索を単純な検索タスクではなく、複数の関連サブタスクを含むマルチタスク問題として定式化した新しいベンチマークとモデルを提案する論文。検索精度と理解能力の両面で既存手法を上回る性能を示す。

EN This paper proposes a new multitask benchmark and model for code search, reformulating it beyond pure retrieval to include multiple related subtasks, achieving improvements over existing methods in both retrieval accuracy and code understanding.

arxiv.org
NEW paper research 5h ago · arxiv-cs-ai

CodeEvolve: 多言語コード最適化のためのLLM駆動進化的アルゴリズム CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement

AI要約 CodeEvolveは、LLMを活用した進化的最適化フレームワークで、実行時情報を組み込んだターゲット選択により多言語コードの性能改善を実現する。従来手法を上回る最適化精度を複数言語で示した研究成果である。

EN CodeEvolve introduces an LLM-driven evolutionary optimization framework that uses runtime-enriched target selection to enhance code across multiple programming languages, outperforming prior approaches in code optimization tasks.

arxiv.org
NEW paper research 5h ago · arxiv-cs-ai

正則化中心化エンファティックTD学習の提案 Regularized Centered Emphatic Temporal Difference Learning

AI要約 強化学習における方策オフ評価の安定化を目的に、エンファティックTD学習を中心化と正則化により改良した手法を提案。分散の低減と収束性の向上を理論的・実験的に示し、関数近似下での学習を安定化させる。

EN This paper proposes a regularized and centered variant of Emphatic Temporal Difference learning for off-policy evaluation in reinforcement learning, aiming to reduce variance and improve convergence with function approximation through theoretical and empirical analysis.

arxiv.org
Regularized Centered Emphatic Temporal Difference Learning og
NEW paper research 5h ago · arxiv-cs-ai

Pro²Assist: マルチモーダル一人称視点による長期手順タスクの能動支援 Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks

AI要約 長期的な手順タスクにおいて、一人称視点のマルチモーダル知覚を用い、ステップを継続的に認識して能動的に支援するフレームワークPro²Assistを提案。ユーザの作業状況に応じた適時な助言を実現する。

EN Pro²Assist is a framework for continuous, step-aware proactive assistance in long-horizon procedural tasks, leveraging multimodal egocentric perception to deliver timely guidance based on the user's ongoing activity.

arxiv.org
Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks og
NEW paper research 5h ago · arxiv-cs-ai

時間推論はボトルネックではない:ニューロシンボリックQAのための確率的不整合フレームワーク Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

AI要約 本論文は、ニューロシンボリックQAにおける誤りの主因が時間推論ではなく確率的不整合であると指摘。LLMの出力の整合性を評価する新たな枠組みを提案し、時間QAタスクで従来の前提を覆す実証結果を示す。

EN This paper argues that the main bottleneck in neuro-symbolic QA is not temporal reasoning but probabilistic inconsistency. It introduces a framework to evaluate LLM output consistency, challenging prior assumptions through experiments on temporal QA tasks.

arxiv.org
Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA og
NEW paper research 5h ago · arxiv-cs-ai

投機的生成のための並列プレフィックス検証 Parallel Prefix Verification for Speculative Generation

AI要約 投機的デコーディングにおいて、ドラフトトークンのプレフィックスを並列に検証する手法を提案。従来の逐次検証に比べ、検証ステップを高速化し、大規模言語モデルの推論レイテンシを削減することを目指す研究である。

EN This paper proposes a parallel prefix verification method for speculative decoding, accelerating the verification step of draft tokens to reduce inference latency in large language models compared to sequential verification.

arxiv.org
Parallel Prefix Verification for Speculative Generation og
NEW paper research 5h ago · arxiv-cs-ai

Agent Island: マルチエージェントゲームによる飽和・汚染耐性ベンチマーク Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

AI要約 マルチエージェントゲームを用いた、飽和や汚染に耐性を持つLLM評価ベンチマーク「Agent Island」を提案する研究。エージェント同士のゲーム形式により、従来の静的ベンチマークの限界を克服する新しい評価枠組みを示している。

EN This paper introduces Agent Island, a benchmark for evaluating LLMs through multiagent games, designed to resist saturation and data contamination issues that plague conventional static benchmarks.

arxiv.org
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games og
NEW paper research 5h ago · arxiv-cs-ai

Transformerにおける暗黙的演繹推論のスケーリング特性 The Scaling Properties of Implicit Deductive Reasoning in Transformers

AI要約 本論文は、Transformerモデルが暗黙的な演繹推論をどの程度学習できるかを、モデルサイズや推論ステップ数などに対するスケーリング特性として分析した研究である。多段推論の能力がパラメータ数や深さとどう関係するかを実験的に検証している。

EN This paper investigates the scaling properties of implicit deductive reasoning in Transformer models, examining how multi-step reasoning capability relates to model size, depth, and inference complexity through systematic empirical analysis.

arxiv.org
The Scaling Properties of Implicit Deductive Reasoning in Transformers og
NEW paper research 5h ago · arxiv-cs-lg

展開時アラインメントはモデル単体評価だけでは推定できない Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone

AI要約 本論文は、モデル単体での評価だけでは実運用環境におけるAIアラインメントの安全性を十分に判断できないと主張する。展開文脈や運用条件を含めた評価体系の必要性を示し、現行の評価手法の限界を論じている。

EN This paper argues that model-level evaluations alone are insufficient to assess deployment-relevant alignment of AI systems, as safety depends on deployment context and operational conditions, calling for context-aware evaluation frameworks.

arxiv.org
Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone og
NEW paper research 5h ago · arxiv-cs-lg

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

EN arXiv:2605.04065v1 Announce Type: cross Abstract: Unsupervised reinforcement learning (RL) has emerged as a promising paradigm for enabling self-improvement in large language models (LLMs). However, e

arxiv.org