LIVE · 05/08
local-llmRELOllama Releases v0.30.0-rc7Ollama Releases v0.30.0-rc7[ollama-releases]copilotRELGitHub Copilot、GPT-4.1の提供終了を予告Upcoming deprecation of GPT-4.1[github-changelog]copilotRELClaude Sonnet 4 deprecatedClaude Sonnet 4 deprecated[github-changelog]copilotRELGitHub Enterprise Live Migrations がパブリックプレビュー開始Enterprise Live Migrations is now in public preview[github-changelog]local-llmRELOllama Releases v0.30.0-rc5Ollama Releases v0.30.0-rc5[ollama-releases]local-llmRELOllama Releases v0.23.2-rc0Ollama Releases v0.23.2-rc0[ollama-releases]agent-fwRELlangchain-core==0.3.86langchain-core==0.3.86[langchain-releases]vscodeRELcollab-production: Fix multibuffer initialization based on RHS state (#56058)collab-production: Fix multibuffer initialization based on RHS state (#56058)[zed-releases]local-llmLLM-as-a-Judge論文に学ぶ、LLMでLLMを採点する評価設計の勘所This article distills design principles from LLM-as-a-Judge research, covering how to buil…[zenn-llm]cursorCursor v3.2とCursor SDKの新機能を一挙整理A roundup of Cursor's v3.2 release and the newly introduced Cursor SDK, covering enhanced …[zenn-cursor]tech-newsRamp、32B評価額からわずか半年で400億ドル超の評価額調達交渉中Ramp in talks to hit $40B+ valuation, 6 months after reaching $32B[techcrunch]tech-newsMetaがカナダのオンラインニュース法案C-22に反対表明Meta’s Position on Canada’s Bill C-22[meta-newsroom]local-llmAWS AgentCore Optimization Preview解説:AIエージェント改善が品質改善ループへAWS unveiled AgentCore Optimization Preview, a feature that transforms AI agent improvemen…[qiita-llm]tech-newsOpenAI、API に新たな音声インテリジェンス機能を追加OpenAI launches new voice intelligence features in its API[techcrunch]tech-newsICE抗議者のDNAを巡るDHS訴訟、巨大データベース化に懸念DHS can’t create vast DNA database to track ICE critics, lawsuit says[ars-technica]tech-newsMicrosoft 365 CopilotにGPT-5.5 Instantが本日提供開始Available today: GPT-5.5 Instant in Microsoft 365 Copilot[microsoft-source]tech-newsMicrosoft、GPT-5.5 InstantをM365 CopilotとFoundryに展開Great to bring GPT 5.5 Instant to M365 Copilot today. With quicker, clearer and more accurate responses, you can get to useful answers with less back and forth. Also rolling out to Copilot Studio and Foundry. All part of our focus on providing you more model choice across work, agents and apps. Read more…[microsoft-source]tech-newsMozilla、Mythosが発見した271件の脆弱性は「ほぼ誤検知なし」と発表Mozilla says 271 vulnerabilities found by Mythos have "almost no false positives"[ars-technica]copilotAIエージェント生成のPull Requestを安全にレビューする方法Agent pull requests are everywhere. Here’s how to review them.[github-blog-ai]tech-newsOpenAIの未来巡るMuskとAltmanの法廷闘争、最新動向Live updates from Elon Musk and Sam Altman’s court battle over the future of OpenAI[the-verge]tech-newsYarboのロボット芝刈り機にハッキング脆弱性、遠隔操作で記者が轢かれる事態にA hacker ran me over with a robot lawn mower[the-verge]local-llmRELOllama v0.23.2 リリース、ローカルLLM実行環境の小幅アップデートOllama Releases v0.23.2[ollama-releases]local-llmRELOllama、v0.30.0-rc6リリース候補版を公開Ollama Releases v0.30.0-rc6[ollama-releases]vscodeRELZed: editor.rsからfoldとselectionをモジュール分割collab-staging: editor: Extract `fold` and `selection` out of `editor.rs` (#56070)[zed-releases]
Today 119
Total 500
Major 22
Sources 46
Updated just now
Daily Summary

今日の更新

Today's Updates

Today 119 ▼ 2%
Yesterday 121
7-day 314
Last 7 days
4
0
4
18
48
121
119
05/02 05/03 05/04 05/05 05/06 05/07 05/08
主要な更新 Top stories 05/08 · 10 件
  1. 01 local-llm REL Ollama Releases v0.30.0-rc7 Ollama Releases v0.30.0-rc7 disable openmp [ollama-releases]
  2. 02 copilot REL GitHub Copilot、GPT-4.1の提供終了を予告 Upcoming deprecation of GPT-4.1 GitHubは、Copilotで利用可能なOpenAIのGPT-4.1モデルを近く非推奨にすると発表した。後継モデルへの移行が促され、開発者は利用中のワークフローを順次切り替える必要がある。 GitHub announced the upcoming deprecation of OpenAI's GPT-4.1 model in Copilot, signaling that developers using it should transition to newer successor models in their workflows. [github-changelog]
  3. 03 copilot REL Claude Sonnet 4 deprecated Claude Sonnet 4 deprecated We have deprecated the following model across all GitHub Copilot experiences (including Copilot Chat, inline edits, ask and agent modes, and code completions) on May 6, 2026. Model Deprecation date… T [github-changelog]
  4. 04 copilot REL GitHub Enterprise Live Migrations がパブリックプレビュー開始 Enterprise Live Migrations is now in public preview GitHubは、エンタープライズアカウント間でのライブマイグレーション機能をパブリックプレビューとして公開した。複数のEnterprise Cloudテナント間で組織やリポジトリ、ユーザーデータを移行可能にし、企業の統合・再編シナリオを支援する。 GitHub has launched Enterprise Live Migrations in public preview, allowing customers to move organizations, repositories, and user data between Enterprise Cloud tenants to support mergers, acquisitions, and reorganization scenarios. [github-changelog]
  5. 05 local-llm REL Ollama Releases v0.30.0-rc5 Ollama Releases v0.30.0-rc5 ci: fix windows dependencies [ollama-releases]
  6. 06 local-llm REL Ollama Releases v0.23.2-rc0 Ollama Releases v0.23.2-rc0 launch: disable Claude Desktop launch ( #16028 ) [ollama-releases]
  7. 07 agent-fw REL langchain-core==0.3.86 langchain-core==0.3.86 Changes since langchain-core==0.3.85 release(core): 0.3.86 ( #37242 ) fix(core): backport path-traversal fix to v0.3 ( CVE-2026-34070 , GHSA-qh6h-p6c9-ff54 ) ( #37233 ) [langchain-releases]
  8. 08 vscode REL collab-production: Fix multibuffer initialization based on RHS state (#56058) collab-production: Fix multibuffer initialization based on RHS state (#56058) This update modifies the initialization of the left-hand side multibuffer in the SplittableEditor. It now checks if the right-hand side multibuffer is a singleton and uses a MultiBuffer::without_heade [zed-releases]
  9. 09 local-llm LLM-as-a-Judge論文に学ぶ、LLMでLLMを採点する評価設計の勘所 This article distills design principles from LLM-as-a-Judge research, covering how to buil… LLMの出力評価を人手だけで賄うのが困難になる中、LLM自身に採点させる「LLM-as-a-Judge」の設計指針を論文から整理した記事。プロンプト設計、バイアス対策、人手評価との整合性確保など、実運用に耐える評価パイプライン構築のポイントを紹介する。 This article distills design principles from LLM-as-a-Judge research, covering how to build scalable evaluation pipelines where LLMs grade other LLMs, including prompt design, bias mitigation, and alignment with human judgment for teams that can no longer rely solely on manual review. [zenn-llm]
  10. 10 cursor Cursor v3.2とCursor SDKの新機能を一挙整理 A roundup of Cursor's v3.2 release and the newly introduced Cursor SDK, covering enhanced … AIコーディング環境Cursorのv3.2リリースと、新たに公開されたCursor SDKの内容をまとめた解説記事。エージェント機能の強化、マルチエージェント連携、SDKによる自動化拡張など、開発体験を一段引き上げる更新が並ぶ。 A roundup of Cursor's v3.2 release and the newly introduced Cursor SDK, covering enhanced agent capabilities, multi-agent coordination, and programmable automation that broaden how developers can integrate Cursor into their workflows. [zenn-cursor]
🔥 Today's Top 3 importance × recency
  1. Zed Editor Releases v1.1.5-pre Zed Editor Releases v1.1.5-pre zed-releases 2d ago
  2. Cline Releases v3.82.0 Cline Releases v3.82.0 cline-releases 6d ago
  3. Ollama Releases v0.30.0-rc7 Ollama Releases v0.30.0-rc7 ollama-releases 2h ago

Timeline 500 total · page 1/17

TODAY 30 entries
NEW blog mcp 19m ago · qiita-mcp

Claude Agent SDK と MCP server で業務自動化、半年間の実装メモ A six-month personal implementation log of automating the author's own work using Claude A…

AI要約 筆者が Claude Agent SDK と MCP server を組み合わせ、自身の業務を半年かけて自動化した実装記録。エージェント設計や MCP サーバの構築過程、運用上の知見をまとめた個人的なノートとなっている。

EN A six-month personal implementation log of automating the author's own work using Claude Agent SDK combined with MCP servers, covering agent design, MCP server construction, and operational lessons learned.

qiita.com
Claude Agent SDK + MCP server で自分の業務を自動化した、半年の実装メモ og
NEW paper research 1h ago · arxiv-cs-ai

LCM: ロスレスなコンテキスト管理手法を提案する研究論文 LCM: Lossless Context Management

AI要約 arXivで公開された論文「LCM: Lossless Context Management」は、LLMの長文コンテキストを情報損失なく効率的に管理する手法を提案する。従来の要約や圧縮ベース手法と異なり、必要時に元情報を完全復元できる点が特徴とされる。

EN An arXiv paper titled 'LCM: Lossless Context Management' proposes a technique for handling long LLM contexts without information loss, contrasting with lossy summarization or compression approaches by preserving full recoverability of original tokens.

arxiv.org
LCM: Lossless Context Management og
NEW paper research 1h ago · arxiv-cs-ai

文脈が害となる時: マルチエージェント設計探索における知識転移のクロスオーバー効果 When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

AI要約 本論文はマルチエージェント設計探索において、エージェント間で知識を共有することが必ずしも性能向上につながらず、むしろ探索効率を低下させる「クロスオーバー効果」が生じることを示す。文脈の与え方次第で知識転移が逆効果となる条件を分析している。

EN This paper investigates how knowledge transfer between agents in multi-agent design exploration can backfire, producing a crossover effect where shared context degrades rather than improves search performance under certain conditions.

arxiv.org
When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration og
NEW paper research 1h ago · arxiv-cs-ai

AuditRepairBench: エージェント修復の評価チャネル順位不安定性ベンチマーク AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair

AI要約 AuditRepairBenchは、ペア実行トレースを用いてLLMエージェントのコード修復における評価器チャネル間の順位不安定性を測定する新たなコーパス。同一修復案でも評価軸により順位が大きく揺らぐ問題を体系化し、エージェント評価の信頼性向上を目指す。

EN AuditRepairBench introduces a paired-execution trace corpus designed to measure evaluator-channel ranking instability in LLM agent code repair, exposing how identical patches can be ranked inconsistently across evaluation channels and pushing toward more reliable agent assessment.

arxiv.org
AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair og
NEW paper research 1h ago · arxiv-cs-ai

展開時のアラインメントはモデル単体評価では判定不能 Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone

AI要約 本論文は、LLMのアラインメントをモデル単体のベンチマークで測るだけでは、実運用環境での安全性を保証できないと主張する。展開時の文脈依存性を踏まえ、システムレベルでの評価枠組みが必要だと論じている。

EN This paper argues that model-level alignment evaluations are insufficient to guarantee safety in real deployments, since alignment behavior depends on the surrounding system context. The authors call for system-level evaluation frameworks that capture deployment-relevant risks.

arxiv.org
Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone og
NEW paper research 1h ago · arxiv-cs-ai

TSCG: エージェントLLM向け決定論的ツールスキーマコンパイル TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments

AI要約 TSCGはエージェントLLM運用におけるツールスキーマを決定論的にコンパイルする手法を提案する研究。ツール呼び出しの信頼性と一貫性を高め、実運用でのエラー削減を目指す。

EN TSCG proposes a deterministic compilation approach for tool schemas in agentic LLM deployments, aiming to improve reliability and consistency of tool invocations and reduce runtime errors in production environments.

arxiv.org
TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments og
NEW paper research 1h ago · arxiv-cs-ai

強化ファインチューニングの失敗を自動管理する堅牢なLLM事後学習手法 Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

AI要約 本論文は強化学習によるLLM事後学習(RFT)で生じる学習失敗を自動検出・対処する枠組みを提案する。報酬崩壊や勾配不安定などの障害を監視し、リトライや調整を行うことで、RFTの安定性と最終性能を高めることを狙う。

EN This paper proposes an automatic failure management framework for reinforcement fine-tuning (RFT) of LLMs, detecting and recovering from training instabilities such as reward collapse and gradient anomalies to improve robustness and final model quality.

arxiv.org
Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning og
NEW paper research 1h ago · arxiv-cs-ai

ソフトウェア工学におけるAIエージェントの責任:利用規約分析と研究ロードマップ Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap

AI要約 本論文はソフトウェア開発に用いられるAIエージェントの「責任(アカウンタビリティ)」をテーマに、主要なAIコーディングサービスの利用規約を分析し、責任の所在に関する課題を整理する。さらに信頼できるエージェント実現に向けた研究ロードマップを提示する。

EN This paper examines accountability of AI agents in software engineering by analyzing terms of service of major AI coding services, highlighting how liability and responsibility are allocated, and proposing a research roadmap toward trustworthy and accountable agents.

arxiv.org
Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap og
NEW paper research 1h ago · arxiv-cs-ai

検索を超えて:コード検索のためのマルチタスクベンチマークとモデル Beyond Retrieval: A Multitask Benchmark and Model for Code Search

AI要約 本論文はコード検索を単一の検索タスクとしてではなく、複数の関連サブタスクを束ねたマルチタスク問題として再定義する新たなベンチマークと統合モデルを提案する。従来の評価指標の限界を指摘し、より実用的な開発者支援を目指す。

EN This paper proposes a multitask benchmark and unified model for code search, reframing it beyond pure retrieval to include related subtasks. It highlights limitations of current evaluation paradigms and aims for more practical developer assistance.

arxiv.org
Beyond Retrieval: A Multitask Benchmark and Model for Code Search og
NEW paper research 1h ago · arxiv-cs-ai

CodeEvolve: LLM進化的最適化による多言語コード強化 CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement

AI要約 CodeEvolveは、LLMを用いた進化的アルゴリズムでコードを自動最適化するフレームワーク。実行時情報を活用したターゲット選択により、複数のプログラミング言語にまたがるコード性能改善を実現する。

EN CodeEvolve is an LLM-driven evolutionary optimization framework that uses runtime-enriched target selection to automatically improve code performance across multiple programming languages.

arxiv.org
CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement og
NEW paper research 1h ago · arxiv-cs-ai

正則化中心化エンファティックTD学習の提案 Regularized Centered Emphatic Temporal Difference Learning

AI要約 強化学習における方策オフ評価の安定化を目的に、エンファティックTD学習を中心化と正則化により改良した手法を提案。分散の低減と収束性の向上を理論的・実験的に示し、関数近似下での学習を安定化させる。

EN This paper proposes a regularized and centered variant of Emphatic Temporal Difference learning for off-policy evaluation in reinforcement learning, aiming to reduce variance and improve convergence with function approximation through theoretical and empirical analysis.

arxiv.org
Regularized Centered Emphatic Temporal Difference Learning og
NEW paper research 1h ago · arxiv-cs-ai

Pro²Assist: マルチモーダル一人称視点による長期手順タスクの能動支援 Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks

AI要約 長期的な手順タスクにおいて、一人称視点のマルチモーダル知覚を用い、ステップを継続的に認識して能動的に支援するフレームワークPro²Assistを提案。ユーザの作業状況に応じた適時な助言を実現する。

EN Pro²Assist is a framework for continuous, step-aware proactive assistance in long-horizon procedural tasks, leveraging multimodal egocentric perception to deliver timely guidance based on the user's ongoing activity.

arxiv.org
Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks og
NEW paper research 1h ago · arxiv-cs-ai

時間推論はボトルネックではない:ニューロシンボリックQAのための確率的不整合フレームワーク Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

AI要約 本論文は、ニューロシンボリックQAにおける誤りの主因が時間推論ではなく確率的不整合であると指摘。LLMの出力の整合性を評価する新たな枠組みを提案し、時間QAタスクで従来の前提を覆す実証結果を示す。

EN This paper argues that the main bottleneck in neuro-symbolic QA is not temporal reasoning but probabilistic inconsistency. It introduces a framework to evaluate LLM output consistency, challenging prior assumptions through experiments on temporal QA tasks.

arxiv.org
Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA og
NEW paper research 1h ago · arxiv-cs-ai

投機的生成のための並列プレフィックス検証 Parallel Prefix Verification for Speculative Generation

AI要約 投機的デコーディングにおいて、ドラフトトークンのプレフィックスを並列に検証する手法を提案。従来の逐次検証に比べ、検証ステップを高速化し、大規模言語モデルの推論レイテンシを削減することを目指す研究である。

EN This paper proposes a parallel prefix verification method for speculative decoding, accelerating the verification step of draft tokens to reduce inference latency in large language models compared to sequential verification.

arxiv.org
Parallel Prefix Verification for Speculative Generation og
NEW paper research 1h ago · arxiv-cs-ai

Agent Island: マルチエージェントゲームによる飽和・汚染耐性ベンチマーク Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

AI要約 マルチエージェントゲームを用いた、飽和や汚染に耐性を持つLLM評価ベンチマーク「Agent Island」を提案する研究。エージェント同士のゲーム形式により、従来の静的ベンチマークの限界を克服する新しい評価枠組みを示している。

EN This paper introduces Agent Island, a benchmark for evaluating LLMs through multiagent games, designed to resist saturation and data contamination issues that plague conventional static benchmarks.

arxiv.org
Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games og
NEW paper research 1h ago · arxiv-cs-ai

Transformerにおける暗黙的演繹推論のスケーリング特性 The Scaling Properties of Implicit Deductive Reasoning in Transformers

AI要約 本論文は、Transformerモデルが暗黙的な演繹推論をどの程度学習できるかを、モデルサイズや推論ステップ数などに対するスケーリング特性として分析した研究である。多段推論の能力がパラメータ数や深さとどう関係するかを実験的に検証している。

EN This paper investigates the scaling properties of implicit deductive reasoning in Transformer models, examining how multi-step reasoning capability relates to model size, depth, and inference complexity through systematic empirical analysis.

arxiv.org
The Scaling Properties of Implicit Deductive Reasoning in Transformers og
NEW paper research 1h ago · arxiv-cs-lg

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

EN arXiv:2605.05216v1 Announce Type: new Abstract: Large language models (LLMs) with a large number of parameters achieve strong performance but are often prohibitively expensive to deploy. Recent work e

arxiv.org
NEW paper research 1h ago · arxiv-cs-lg

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

EN arXiv:2605.05221v1 Announce Type: new Abstract: Classical representation systems such as Fourier series, wavelets, and fixed dictionaries provide analytically tractable basis expansions, but they are

arxiv.org