LIVE · 05/04
local-llmRELOllama v0.23.0リリース、Vulkanサポートを追加v0.23.0[ollama-releases]agent-fwRELlangchain-anthropic==1.4.3langchain-anthropic==1.4.3[langchain-releases]agent-fwRELlangchain-classic==1.0.5langchain-classic==1.0.5[langchain-releases]claudeClaude Managed Agentsとは?従来の自前実装との違いClaude Managed Agents is a framework where Anthropic manages the agent execution infrastru…[qiita-claude]researchClaude Mythos Preview入門 — SWE-bench 93.9%とProject Glasswingの全貌An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project …[zenn-ai]researchLLMに戦略を聞くと96%が『差別化』を選ぶ — HBR論文が示すTrendslopとはAn HBR paper reveals that when asked to choose business strategies, 96% of LLM responses f…[zenn-ai]tech-newsHarvardの研究、ER診断でAIが医師2人を上回る精度を示すIn Harvard study, AI offered more accurate emergency room diagnoses than two human doctors[techcrunch]local-llmRELOllama v0.21.3 リリース候補版を公開v0.21.3[ollama-releases]vscodeRELZed collab-staging リリースcollab-staging[zed-releases]researchTADI: エージェント型LLMによる掘削現場データ統合知能TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data[arxiv-cs-ai]researchAgentReputation: 分散型エージェンティックAIの評判フレームワークAgentReputation: A Decentralized Agentic AI Reputation Framework[arxiv-cs-ai]research大規模言語モデルのジェイルブレイク成功に対する最小・局所・因果的説明Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models[arxiv-cs-ai]researchツールだけで十分か? LLMエージェントにおけるツール利用の代償を解明Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents[arxiv-cs-ai]researchTUR-DPO: トポロジーと不確実性を考慮した直接選好最適化TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization[arxiv-cs-ai]researchARMOR 2025: 軍事領域に対応したLLM安全性ベンチマークARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts[arxiv-cs-ai]research集合的エージェンシーの因果的基礎Causal Foundations of Collective Agency[arxiv-cs-ai]research旅行計画最適化のためのエージェント型AIアプリケーションAgentic AI for Trip Planning Optimization Application[arxiv-cs-ai]researchAgentFloor: 小型オープンウェイトモデルはツール利用でどこまで通用するかAgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?[arxiv-cs-ai]research物理的にネイティブな世界モデル:生成的世界モデリングへのハミルトニアン視点Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling[arxiv-cs-ai]researchAEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement LearningAEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning[arxiv-cs-ai]researchThinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot ManipulationThinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation[arxiv-cs-ai]researchOn the Role of Artificial Intelligence in Human-Machine SymbiosisOn the Role of Artificial Intelligence in Human-Machine Symbiosis[arxiv-cs-ai]researchInstance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing ProblemInstance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem[arxiv-cs-ai]researchToken Arena: A Continuous Benchmark Unifying Energy and Cognition in AI InferenceToken Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference[arxiv-cs-lg]
Today 69
Total 500
Major 23
Sources 41
Updated just now
Daily Summary

今日の更新

Today's Updates

Today 69 ▼ 4%
Yesterday 72
7-day 373
Last 7 days
27
30
41
68
66
72
69
04/28 04/29 04/30 05/01 05/02 05/03 05/04
主要な更新 Top stories 05/04 · 10 件
  1. 01 local-llm REL Ollama v0.23.0リリース、Vulkanサポートを追加 v0.23.0 OllamaのバージョンアップでVulkanサポートが追加され、AMDやIntelなど幅広いGPUでの推論実行が可能となった。互換性が向上し、より多様なハードウェア環境で利用しやすくなっている。 Ollama v0.23.0 adds Vulkan support, enabling inference on a broader range of GPUs including AMD and Intel hardware, improving compatibility across diverse system configurations. [ollama-releases]
  2. 02 agent-fw REL langchain-anthropic==1.4.3 langchain-anthropic==1.4.3 Changes since langchain-anthropic==1.4.2 release(anthropic): 1.4.3 ( #37166 ) refactor(langchain-classic): retarget deprecations to create_agent , other chores ( #37164 ) chore(docs): update x handle [langchain-releases]
  3. 03 agent-fw REL langchain-classic==1.0.5 langchain-classic==1.0.5 Changes since langchain-classic==1.0.4 release(langchain-classic): 1.0.5 ( #37165 ) refactor(langchain-classic): retarget deprecations to create_agent , other chores ( #37164 ) chore(langchain,langcha [langchain-releases]
  4. 04 claude Claude Managed Agentsとは?従来の自前実装との違い Claude Managed Agents is a framework where Anthropic manages the agent execution infrastru… Claude Managed Agentsは、従来開発者が自前で構築していたエージェントの実行基盤をAnthropic側で管理する仕組み。インフラ運用やスケーリングの手間を省き、開発者はエージェントのロジックに集中できる点が従来実装との大きな違いとなる。 Claude Managed Agents is a framework where Anthropic manages the agent execution infrastructure that developers previously built themselves. It frees developers from infrastructure and scaling concerns, letting them focus on agent logic, marking a key difference from custom implementations. [qiita-claude]
  5. 05 research Claude Mythos Preview入門 — SWE-bench 93.9%とProject Glasswingの全貌 An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project … AnthropicのProject Glasswingで開発中の次世代モデルClaude Mythos Previewを紹介。SWE-bench Verifiedで93.9%という驚異的なスコアを達成し、長時間の自律的コーディングや高度なエージェント機能を備える点を解説する。 An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project Glasswing, which achieves a remarkable 93.9% on SWE-bench Verified and offers extended autonomous coding and advanced agentic capabilities. [zenn-ai]
  6. 06 research LLMに戦略を聞くと96%が『差別化』を選ぶ — HBR論文が示すTrendslopとは An HBR paper reveals that when asked to choose business strategies, 96% of LLM responses f… HBR論文によれば、複数のLLMに戦略選択を尋ねると96%が『差別化戦略』を選ぶ傾向があり、これをTrendslopと命名。LLMの回答の偏りが企業戦略の同質化を招くリスクを指摘し、多様な視点の確保が重要だと論じる。 An HBR paper reveals that when asked to choose business strategies, 96% of LLM responses favor 'differentiation,' a bias dubbed Trendslop. This homogenization risk in AI-driven strategic advice highlights the need for diverse perspectives in corporate decision-making. [zenn-ai]
  7. 07 tech-news Harvardの研究、ER診断でAIが医師2人を上回る精度を示す In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors Harvard大学の研究によれば、AIモデルは救急外来における診断精度で人間の医師2名を上回る結果を示した。AIが医療現場の意思決定支援で有望であることを裏付ける一方、臨床導入には慎重な検証が求められる。 A Harvard study found that an AI model produced more accurate emergency room diagnoses than two human doctors, highlighting AI's promise as a clinical decision support tool while underscoring the need for careful validation before deployment. [techcrunch]
  8. 08 local-llm REL Ollama v0.21.3 リリース候補版を公開 v0.21.3 OllamaのバージョンアップでリリースキャンディデートのRCバージョンv0.21.3-rc0が公開された。詳細な変更点はリリースノートに記載されており、通常のメンテナンス更新と位置付けられる。 Ollama published the v0.21.3-rc0 release candidate, a routine maintenance update with minor changes detailed in its release notes. [ollama-releases]
  9. 09 vscode REL Zed collab-staging リリース collab-staging Zedエディタのコラボレーション機能向けステージング環境のリリースタグです。本番展開前の検証用で、エンドユーザー向けの新機能や変更点は含まれていません。 A staging release tag for Zed's collaboration backend, used for pre-production validation. It contains no user-facing feature changes. [zed-releases]
  10. 10 research TADI: エージェント型LLMによる掘削現場データ統合知能 TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data 異種の油田掘削データに対し、エージェント型LLMオーケストレーションとツール拡張を組み合わせた掘削知能システムTADIを提案。複数データソースを統合し、現場の意思決定支援を実現する研究である。 TADI proposes a tool-augmented drilling intelligence system that uses agentic LLM orchestration over heterogeneous wellsite data to integrate diverse sources and support drilling decision-making. [arxiv-cs-ai]
🔥 Today's Top 3 importance × recency
  1. Cursorに「git clone」だけでPC乗っ取り、CVSS 9.9の重大脆弱性 A critical CVSS 9.9 vulnerability in Cursor allows arbitrary code execution merely by git … qiita-cursor 21h ago
  2. Microsoft、Agent 365を一般提供開始 AIエージェントを全社で統合管理 Agent 365 is now generally available! We’re extending the systems customers already use for identity, security, governance and management to every AI agent and their interactions across the enterprise. Read more… microsoft-source 2d ago
  3. Microsoft Agent 365、エージェントの統制基盤として一般提供開始 Microsoft Agent 365, the control plane for agents, now generally available microsoft-source 2d ago

Timeline 500 total · page 1/17

TODAY 30 entries
NEW paper research 1h ago · arxiv-cs-ai

TADI: エージェント型LLMによる掘削現場データ統合知能 TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data

AI要約 異種の油田掘削データに対し、エージェント型LLMオーケストレーションとツール拡張を組み合わせた掘削知能システムTADIを提案。複数データソースを統合し、現場の意思決定支援を実現する研究である。

EN TADI proposes a tool-augmented drilling intelligence system that uses agentic LLM orchestration over heterogeneous wellsite data to integrate diverse sources and support drilling decision-making.

arxiv.org
TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data og
NEW paper research 1h ago · arxiv-cs-ai

AgentReputation: 分散型エージェンティックAIの評判フレームワーク AgentReputation: A Decentralized Agentic AI Reputation Framework

AI要約 自律AIエージェント向けの分散型評判管理フレームワーク「AgentReputation」を提案。エージェント間の信頼性評価を分散的に行い、悪意ある行動の抑制や安全な協調を実現する仕組みを示している。

EN This paper proposes AgentReputation, a decentralized reputation framework for agentic AI systems that enables trust evaluation among autonomous agents to mitigate malicious behavior and support safe multi-agent collaboration.

arxiv.org
AgentReputation: A Decentralized Agentic AI Reputation Framework og
NEW paper research 1h ago · arxiv-cs-ai

大規模言語モデルのジェイルブレイク成功に対する最小・局所・因果的説明 Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

AI要約 本研究は大規模言語モデルにおけるジェイルブレイク攻撃の成功要因を、最小・局所・因果的な観点から説明する手法を提案する。モデル内部の特定要素を介入実験で検証し、安全機構の脆弱性を解釈可能な形で明らかにする。

EN This paper proposes a method to explain why jailbreak attacks succeed in large language models through minimal, local, and causal interventions, identifying specific internal components responsible for safety bypasses in an interpretable manner.

arxiv.org
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models og
NEW paper research 1h ago · arxiv-cs-ai

ツールだけで十分か? LLMエージェントにおけるツール利用の代償を解明 Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

AI要約 本研究はLLMエージェントがツールを使う際に生じる性能劣化「ツール利用税」を分析。ツール導入が必ずしも精度向上に繋がらず、推論能力やコストに悪影響を及ぼす場合があることを実証的に示した。

EN This paper investigates the 'tool-use tax' in LLM agents, showing that integrating external tools does not always improve performance and can degrade reasoning quality and increase costs across various benchmarks.

arxiv.org
Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents og
NEW paper research 1h ago · arxiv-cs-ai

TUR-DPO: トポロジーと不確実性を考慮した直接選好最適化 TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

AI要約 本論文は、選好データのトポロジー構造と不確実性を取り込んだ新しい直接選好最適化(DPO)手法TUR-DPOを提案する。従来のDPOが見落としがちな選好の幾何学的関係と信頼度を活用し、より頑健な言語モデルアラインメントを実現する。

EN The paper proposes TUR-DPO, a Direct Preference Optimization variant that incorporates topological structure and uncertainty estimation of preference data to achieve more robust language model alignment compared to standard DPO.

arxiv.org
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization og
NEW paper research 1h ago · arxiv-cs-ai

ARMOR 2025: 軍事領域に対応したLLM安全性ベンチマーク ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

AI要約 ARMOR 2025は、民間中心の評価では捉えきれない軍事的文脈における大規模言語モデルの安全性を評価するベンチマーク。軍事ドクトリンに整合した敵対的プロンプトを用い、既存LLMの脆弱性を明らかにする。

EN ARMOR 2025 is a new benchmark for evaluating LLM safety in military-aligned contexts beyond civilian use cases. It uses doctrine-aligned adversarial prompts to reveal vulnerabilities in current models that standard safety evaluations miss.

arxiv.org
ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts og
NEW paper research 1h ago · arxiv-cs-ai

集合的エージェンシーの因果的基礎 Causal Foundations of Collective Agency

AI要約 本論文は、複数主体による集合的行為主体性(collective agency)を因果モデルの枠組みで定式化する研究である。個々のエージェントの介入と結果の因果関係を分析し、集団としての意図や責任の帰属を理論的に基礎づけることを目指している。

EN This paper formalizes collective agency through a causal modeling framework, analyzing how interventions by multiple agents jointly produce outcomes and providing theoretical foundations for attributing intentions and responsibility to groups.

arxiv.org
Causal Foundations of Collective Agency og
NEW paper research 1h ago · arxiv-cs-ai

旅行計画最適化のためのエージェント型AIアプリケーション Agentic AI for Trip Planning Optimization Application

AI要約 本論文は、旅行計画の最適化に向けたエージェント型AIアプリケーションを提案する。複数のAIエージェントが連携し、ユーザーの好みや制約に基づき行程・予算・交通手段などを動的に最適化する仕組みを示し、従来手法との比較で有効性を検証している。

EN This paper presents an agentic AI application for trip planning optimization, where multiple cooperating AI agents dynamically optimize itineraries, budgets, and transportation based on user preferences and constraints, demonstrating effectiveness over traditional methods.

arxiv.org
Agentic AI for Trip Planning Optimization Application og
NEW paper research 1h ago · arxiv-cs-ai

AgentFloor: 小型オープンウェイトモデルはツール利用でどこまで通用するか AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

AI要約 小型のオープンウェイトLLMがエージェント的なツール利用タスクでどの程度の性能に到達できるかを評価するベンチマーク「AgentFloor」を提案。各種モデルの能力の下限と上限を体系的に比較し、ツール使用能力の限界を明らかにする。

EN Introduces AgentFloor, a benchmark that systematically evaluates how far small open-weight LLMs can climb the tool-use capability ladder, comparing models to reveal performance floors and ceilings on agentic tasks.

arxiv.org
NEW paper research 1h ago · arxiv-cs-ai

物理的にネイティブな世界モデル:生成的世界モデリングへのハミルトニアン視点 Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

AI要約 本論文は生成的世界モデリングをハミルトニアン力学の観点から再構築し、物理法則に忠実な世界モデルを提案する。エネルギー保存や対称性を内在化することで、より一貫性のある長期予測とシミュレーションを可能にする枠組みを示す。

EN This paper reframes generative world modeling through a Hamiltonian dynamics perspective, proposing physically native world models that embed conservation laws and symmetries to enable more consistent long-horizon prediction and simulation.

arxiv.org
NEW paper research 1h ago · arxiv-cs-ai

Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

EN arXiv:2605.00438v1 Announce Type: new Abstract: Long-horizon robotic manipulation requires plans that are both logically coherent and geometrically grounded. Existing Vision-Language-Action policies u

arxiv.org
NEW paper research 1h ago · arxiv-cs-ai

Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem

EN arXiv:2605.00572v1 Announce Type: new Abstract: Algorithm performance in combinatorial optimization is highly sensitive to parameter settings, while a single globally tuned configuration often fails t

arxiv.org
NEW paper research 1h ago · arxiv-cs-lg

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

EN arXiv:2605.00064v1 Announce Type: new Abstract: Information-theoretic generalization bounds analyze stochastic optimization by relating expected generalization error to the mutual information between

arxiv.org