HomePage 3

Timeline page 3/16 · 459 total

TODAY 30 entries
NEW paper research 5h ago · arxiv-cs-ai

本論文は、LLMの推論能力は出力される思考連鎖(Chain of Thought)そのものではなく、潜在表現の中に存在すると主張する LLM Reasoning Is Latent, Not the Chain of Thought

AI要約 本論文は、LLMの推論能力は出力される思考連鎖(Chain of Thought)そのものではなく、潜在表現の中に存在すると主張する。CoTテキストは内部の潜在的推論過程の表層的な痕跡に過ぎず、モデルの真の推論機構を理解するには潜在空間の分析が必要であると論じている。

EN This paper argues that LLM reasoning resides in latent representations rather than the explicit Chain of Thought output. The CoT text is merely a surface trace of deeper latent reasoning, suggesting that understanding true model reasoning requires analyzing latent spaces.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

本論文は、代数的不変量を活用してLLMにアブダクション・演繹・帰納の構造化推論を行わせる手法を提案する Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

AI要約 本論文は、代数的不変量を活用してLLMにアブダクション・演繹・帰納の構造化推論を行わせる手法を提案する。仮説生成を不変量探索に帰着させ、演繹的検証と帰納的一般化を組み合わせることで、推論の一貫性と検証可能性を高めることを目指す。

EN This paper proposes a structured abductive-deductive-inductive reasoning framework for LLMs based on algebraic invariants, casting hypothesis generation as invariant discovery combined with deductive verification and inductive generalization to improve reasoning consistency and verifiability.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

AI要約 KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク。実世界のタスクに潜む課題をモデルが気付けるかを評価し、従来の指示追従型評価を補完する。

EN KWBench is a new benchmark measuring whether LLMs can spontaneously recognize problems in knowledge work tasks without explicit prompting, complementing traditional instruction-following evaluations.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

本論文はブラックボックス組合せ最適化のためのStein変分推論に基づく新手法を提案する Stein Variational Black-Box Combinatorial Optimization

AI要約 本論文はブラックボックス組合せ最適化のためのStein変分推論に基づく新手法を提案する。勾配情報が得られない離散探索空間において、粒子群を用いた分布近似で効率的に最適解を探索し、従来手法を上回る性能を示す。

EN This paper proposes a Stein variational inference approach for black-box combinatorial optimization, using particle-based distribution approximation to efficiently search discrete spaces without gradient information, outperforming prior methods.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

Lean 4におけるハードモードの自動定理証明のためのオープンソースのエージェント型フレームワーク「Discover and Prove」を… Discover and Prove: An Open-source Agentic Framework for Hard Mode Automated Theorem Proving in Lean 4

AI要約 Lean 4におけるハードモードの自動定理証明のためのオープンソースのエージェント型フレームワーク「Discover and Prove」を提案。発見と証明を組み合わせた手法で、難易度の高い定理証明タスクに取り組む。

EN Proposes Discover and Prove, an open-source agentic framework for hard mode automated theorem proving in Lean 4, combining discovery and proving stages to tackle challenging theorem proving tasks.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

LLMエージェントの経験蓄積手法を「記憶・スキル・ルール」という圧縮度の異なるスペクトルとして統一的に捉える枠組みを提案する論文 Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

AI要約 LLMエージェントの経験蓄積手法を「記憶・スキル・ルール」という圧縮度の異なるスペクトルとして統一的に捉える枠組みを提案する論文。各形式の抽象化レベルと適用場面を整理し、エージェント設計における経験活用の指針を示す。

EN This paper proposes a unified framework viewing experience accumulation in LLM agents as a compression spectrum spanning memory, skills, and rules, clarifying abstraction levels and use cases to guide agent design.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

本論文は、特徴量帰属による説明可能性に厳密な数学的基盤を与える試みを提案する Towards Rigorous Explainability by Feature Attribution

AI要約 本論文は、特徴量帰属による説明可能性に厳密な数学的基盤を与える試みを提案する。従来のヒューリスティックな手法を超え、説明の正確性や一貫性を保証する形式的枠組みを構築し、信頼性のあるAI解釈を目指す。

EN This paper proposes a rigorous mathematical framework for explainability via feature attribution, moving beyond heuristic methods to provide formal guarantees on explanation correctness and consistency for trustworthy AI interpretation.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-lg

Functional Similarity Metric for Neural Networks: Overcoming Parametric Ambiguity via Activation Region Analysis Functional Similarity Metric for Neural Networks: Overcoming Parametric Ambiguity via Activation Region Analysis

EN arXiv:2604.16426v1 Announce Type: new Abstract: As modern deep learning architectures grow in complexity, representational ambiguity emerges as a critical barrier to their interpretability and reliabl

arxiv.org
fallback
NEW blog tech-news 6h ago · ars-technica

米国防総省が、軍の最も問題を抱えた宇宙プログラムの一つを中止することを決定した Pentagon pulls the plug on one of the military's most troubled space programs

AI要約 米国防総省が、軍の最も問題を抱えた宇宙プログラムの一つを中止することを決定した。長年の開発遅延や予算超過が背景にあり、ペンタゴンは本計画から撤退する。

EN The Pentagon has decided to cancel one of the U.S. military's most troubled space programs, ending the effort after years of delays and cost overruns.

arstechnica.com
fallback
NEW blog tech-news 8h ago · techcrunch

Appleの次期CEOに就任予定と報じられているジョン・ターナス氏の人物像を紹介する記事 Who is John Ternus, the incoming Apple CEO?

AI要約 Appleの次期CEOに就任予定と報じられているジョン・ターナス氏の人物像を紹介する記事。現在ハードウェアエンジニアリング担当シニアバイスプレジデントを務める同氏の経歴や役割、ティム・クック氏からの後継者としての位置付けに焦点を当てている。

EN A profile of John Ternus, Apple's senior VP of Hardware Engineering, who is reportedly set to succeed Tim Cook as the company's next CEO, covering his background and role at Apple.

techcrunch.com
fallback
NEW release local-llm 8h ago · ollama-releases

Ollamaのプレリリースバージョンv0.21.1-rc0が公開された v0.21.1-rc0

AI要約 Ollamaのプレリリースバージョンv0.21.1-rc0が公開された。リリース候補版であり、詳細な変更内容は明記されていないが、次期安定版に向けたテスト用ビルドとして提供されている。

EN Ollama has published a pre-release build v0.21.1-rc0, a release candidate for testing ahead of the next stable version, with no detailed changelog specified.

github.com
v0.21.1-rc0 media
NEW blog local-llm 8h ago · huggingface-blog

NVIDIAがHuggingFaceブログで、合成ペルソナデータセット「Nemotron-Personas-Korea」を活用して韓国の実際… How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

AI要約 NVIDIAがHuggingFaceブログで、合成ペルソナデータセット「Nemotron-Personas-Korea」を活用して韓国の実際の人口統計に基づくAIエージェントを構築する方法を紹介。地域・年齢・職業分布を反映したペルソナで、韓国向けLLMアプリの現実的な評価やデータ生成を可能にする。

EN NVIDIA's Hugging Face blog post shows how to build Korean AI agents grounded in real demographics using the Nemotron-Personas-Korea synthetic dataset, enabling realistic evaluation and data generation for Korea-targeted LLM applications.

huggingface.co
fallback
NEW blog research 8h ago · zenn-ai

AIがチームの一員になった──Datadog Japan CS勉強会 #7 イベントレポート Event report from Datadog Japan's 7th Customer Success study meetup, themed 'AI has become…

AI要約 Datadog Japan主催のCS勉強会#7のイベントレポート。テーマは「AIがチームの一員になった」で、AIをチームメンバーとして活用する事例や知見が共有された。カスタマーサクセス領域でのAI活用の現状と今後について議論された。

EN Event report from Datadog Japan's 7th Customer Success study meetup, themed 'AI has become a team member,' sharing cases and insights on leveraging AI as a team member in customer success operations.

zenn.dev
fallback
NEW blog tech-news 8h ago · the-verge

AppleのCEOティム・クックは、トランプ政権との関係維持を担う「トランプ対応役」として引き続き中心的な役割を果たす見通し Tim Cook will still be Apple’s Trump whisperer

AI要約 AppleのCEOティム・クックは、トランプ政権との関係維持を担う「トランプ対応役」として引き続き中心的な役割を果たす見通し。会長職などの役職変更の噂がある中でも、政治的折衝における彼の重要性が強調されている。

EN Apple CEO Tim Cook will continue to serve as the company's key liaison with the Trump administration, maintaining his role as Apple's 'Trump whisperer' amid speculation about potential leadership title changes.

theverge.com
fallback
NEW blog research 9h ago · zenn-ai

Claude CodeのUIをMCPで改善した話 An article describing how the author improved the UI of Claude Code by leveraging MCP (Mod…

AI要約 Claude CodeのUIをMCP(Model Context Protocol)を活用して改善した取り組みを紹介する記事。MCPサーバーを導入することで、Claude Codeのユーザーインターフェースをより使いやすくカスタマイズした事例を解説している。

EN An article describing how the author improved the UI of Claude Code by leveraging MCP (Model Context Protocol), customizing the interface through an MCP server for better usability.

zenn.dev
fallback
NEW blog tech-news 9h ago · microsoft-source

ニュージーランドでは地盤データとAIを組み合わせ、より安全で効率的な建設を実現する取り組みが進んでいる Pairing geotechnical data with AI helps New Zealand build better

AI要約 ニュージーランドでは地盤データとAIを組み合わせ、より安全で効率的な建設を実現する取り組みが進んでいる。Microsoftのクラウド・AI技術を活用し、地質調査データを統合・解析することで、インフラ計画や災害対策の精度向上が期待されている。

EN New Zealand is pairing geotechnical data with AI on Microsoft cloud to improve construction safety and efficiency, integrating geological survey data to enhance infrastructure planning and disaster resilience.

news.microsoft.com
fallback