LIVE · 04/28
tech-newsOpenAI、Microsoftとの独占パートナーシップを解消OpenAI ends its exclusive partnership with Microsoft[ars-technica]tech-newsDeepMindのDavid Silver、人間データ不要のAI開発に11億ドルを調達DeepMind’s David Silver just raised $1.1B to build an AI that learns without human data[techcrunch]tech-newsMicrosoftとOpenAIの著名なAGI条項が消滅Microsoft and OpenAI’s famed AGI agreement is dead[the-verge]agent-fwRELpython-1.41.3python-1.41.3[semantic-kernel-releases]copilotRELGitHub Copilotコードレビュー、2026年6月1日からGitHub Actions分を消費へGitHub Copilot code review will start consuming GitHub Actions minutes on June 1, 2026[github-changelog]tech-newsインドのSnabbit、5600万ドル調達 オンデマンド家事代行に投資家注目India’s Snabbit closes $56M round as investor interest in on-demand home services heats up[techcrunch]tech-newsOutlookにAgent Mode登場、Copilotがメールと予定を自動管理Agent Mode is here in Outlook! Copilot can now help run your inbox and calendar, triaging emails, rescheduling meetings and helping you stay on top of what matters most. Now available in our Frontier early access program.[microsoft-source]copilot2026年6月1日よりGitHub Copilotの年間プラン提供が終了GitHub announced that annual subscription plans for GitHub Copilot will be discontinued on…[qiita-copilot]tech-newsNASAのArtemis III月面着陸ミッション、打ち上げは早くても2027年末に延期Put it in pencil: NASA's Artemis III mission will launch no earlier than late 2027[ars-technica]copilotGitHub Copilotプレミアムリクエストの課金体系が変更へThis article reports that GitHub Copilot's premium request billing system is changing, end…[qiita-copilot]tech-newsGoogleがYouTubeでAIチャットボット検索を試験導入Google is testing AI chatbot search for YouTube[the-verge]researchMicrosoft VibeVoice: 長尺対話音声を生成するオープンモデルmicrosoft/VibeVoice[simonw-blog]tech-news月間100万DLの人気OSSパッケージが認証情報を窃取Open source package with 1 million monthly downloads stole user credentials[ars-technica]tech-newsCanonical、UbuntuへのAI機能導入計画を発表Canonical lays out a plan for AI in Ubuntu Linux[the-verge]tech-newsMuskとAltmanが法廷対決、OpenAIの未来を左右する裁判へMusk and Altman face off in trial that will determine OpenAI's future[ars-technica]tech-newsEUがGoogleにAndroidのAIアシスタント開放を要求、Googleは反発EU tells Google to open up AI on Android; Google says that's "unwarranted intervention"[ars-technica]researchOpenAIとMicrosoftのAGI条項の歴史をたどるTracking the history of the now-deceased OpenAI Microsoft AGI clause[simonw-blog]tech-newsオリジナル開発者による現代向けSNESエミュレータ「Super ZSNES」登場"Super ZSNES" is a stab at a modern SNES emulator from the original developers[ars-technica]tech-newsGoogle従業員、Pichai CEOに機密軍事AI利用拒否を要請Google employees ask Sundar Pichai to say no to classified military AI use[the-verge]tech-news米中AI対立深まる中、中国がMetaによるManus買収を阻止China kills Meta’s acquisition of Manus as US-China AI rivalry deepens[ars-technica]tech-newsMicrosoft Copilot Studioにリアルタイム音声エージェント、Dynamics 365にも新エージェント追加Microsoft Copilot Studio introduces real-time voice agents while Dynamics 365 adds new agents[microsoft-source]tech-newsOpenAI、Amazonとの500億ドル契約でMicrosoftの法的障害を解消OpenAI ends Microsoft legal peril over its $50B Amazon deal[techcrunch]tech-newsSteam Controller: Ars TechnicaによるレビューSteam Controller: The Ars Technica review[ars-technica]tech-news中国の指示でサイバー攻撃を実行した疑いのハッカー、米国へ身柄引き渡しHacker who allegedly carried out cyberattacks for China is extradited to US[techcrunch]
Today 119
Total 500
Major 24
Sources 42
Updated just now
Daily Summary

今日の更新

Today's Updates

Today 119 ▲ 13%
Yesterday 105
7-day 363
Last 7 days
9
40
39
30
21
105
119
04/22 04/23 04/24 04/25 04/26 04/27 04/28
主要な更新 Top stories 04/28 · 10 件
  1. 01 tech-news OpenAI、Microsoftとの独占パートナーシップを解消 OpenAI ends its exclusive partnership with Microsoft OpenAIはMicrosoftとの独占的なクラウドパートナーシップを終了し、他のクラウドプロバイダーとも提携できるようになった。Microsoftはこの変更に同意し、AI業界の競争環境に大きな影響を与える可能性がある。 OpenAI has ended its exclusive cloud partnership with Microsoft, gaining the freedom to work with other cloud providers. Microsoft agreed to the change, marking a significant shift in the AI industry's competitive landscape. [ars-technica]
  2. 02 tech-news DeepMindのDavid Silver、人間データ不要のAI開発に11億ドルを調達 DeepMind’s David Silver just raised $1.1B to build an AI that learns without human data DeepMindでAlphaGoを率いたDavid Silverが、人間のデータに依存せず自律的に学習するAIの開発を目指し、11億ドルの資金調達を実施した。強化学習を軸に、経験から学ぶ次世代AI研究を推進する新会社を立ち上げる。 David Silver, the DeepMind researcher behind AlphaGo, has raised $1.1 billion to launch a new venture building AI systems that learn autonomously from experience rather than relying on human-generated data, with reinforcement learning at the core. [techcrunch]
  3. 03 tech-news MicrosoftとOpenAIの著名なAGI条項が消滅 Microsoft and OpenAI’s famed AGI agreement is dead MicrosoftとOpenAIは契約を再交渉し、AGI達成時にMicrosoftのアクセスを終了させる有名な条項を撤廃した。これによりOpenAIの営利化への道が開かれ、両社の関係も新たな段階に入る。 Microsoft and OpenAI have renegotiated their contract, scrapping the famous AGI clause that would have cut off Microsoft's access once AGI was achieved, paving the way for OpenAI's restructuring into a for-profit entity. [the-verge]
  4. 04 agent-fw REL python-1.41.3 python-1.41.3 What's Changed Python: Add field and table name escaping for python SqlServer connector by @westey-m in #13893 Python: Extend InMemoryCollection filter attribute blocklist by @moonbox3 in #13897 Pytho [semantic-kernel-releases]
  5. 05 copilot REL GitHub Copilotコードレビュー、2026年6月1日からGitHub Actions分を消費へ GitHub Copilot code review will start consuming GitHub Actions minutes on June 1, 2026 GitHubは、Copilotのコードレビュー機能が2026年6月1日からGitHub Actionsの実行時間(分)を消費するようになると発表した。これまで無償だった利用が課金対象となり、組織や利用者は今後コスト管理を見直す必要がある。 GitHub announced that Copilot code review will begin consuming GitHub Actions minutes starting June 1, 2026, shifting the feature from free usage to a metered model that organizations will need to factor into their cost planning. [github-changelog]
  6. 06 tech-news インドのSnabbit、5600万ドル調達 オンデマンド家事代行に投資家注目 India’s Snabbit closes $56M round as investor interest in on-demand home services heats up インドのオンデマンド家事代行サービスSnabbitが5600万ドルの資金調達ラウンドを完了した。同分野への投資家の関心が高まる中、サービス拡大を加速する狙い。掃除や料理などの即時対応型家事サービスを提供している。 Indian on-demand home services startup Snabbit has closed a $56M funding round amid growing investor interest in the sector. The company plans to expand its rapid-response household services like cleaning and cooking. [techcrunch]
  7. 07 tech-news OutlookにAgent Mode登場、Copilotがメールと予定を自動管理 Agent Mode is here in Outlook! Copilot can now help run your inbox and calendar, triaging emails, rescheduling meetings and helping you stay on top of what matters most. Now available in our Frontier early access program. MicrosoftはOutlook向けにAgent Modeを発表した。Copilotが受信トレイを自動でトリアージし、会議のリスケジュールや重要案件の優先付けを支援する。現在Frontier早期アクセスプログラムで利用可能。 Microsoft has launched Agent Mode in Outlook, enabling Copilot to triage emails, reschedule meetings, and help users prioritize what matters most in their inbox and calendar. It's now available via the Frontier early access program. [microsoft-source]
  8. 08 copilot 2026年6月1日よりGitHub Copilotの年間プラン提供が終了 GitHub announced that annual subscription plans for GitHub Copilot will be discontinued on… GitHubは2026年6月1日をもってGitHub Copilotの年間プラン提供を終了すると発表した。既存契約者は更新時に月額プランへ移行する必要があり、料金体系や支払い方法の見直しが求められる。 GitHub announced that annual subscription plans for GitHub Copilot will be discontinued on June 1, 2026. Existing annual subscribers will need to switch to monthly billing upon renewal, requiring users to reconsider their payment plans. [qiita-copilot]
  9. 09 tech-news NASAのArtemis III月面着陸ミッション、打ち上げは早くても2027年末に延期 Put it in pencil: NASA's Artemis III mission will launch no earlier than late 2027 NASAのArtemis IIIミッションは、当初予定より大幅に遅れ、早くても2027年後半まで打ち上げが行われない見込みとなった。SpaceXの着陸船開発の遅延などが影響しており、有人月面着陸の実現時期はさらに不透明になっている。 NASA's Artemis III crewed lunar landing mission has been pushed back and will now launch no earlier than late 2027, due in large part to delays in SpaceX's Starship lunar lander development and other technical hurdles. [ars-technica]
  10. 10 copilot GitHub Copilotプレミアムリクエストの課金体系が変更へ This article reports that GitHub Copilot's premium request billing system is changing, end… GitHub Copilotのプレミアムリクエスト課金体系が変更され、これまでのコストパフォーマンスの良さが失われると指摘する記事。料金改定により従来のような大量利用が難しくなり、ユーザーへの影響が大きいとしている。 This article reports that GitHub Copilot's premium request billing system is changing, ending its previous cost-effectiveness. The new pricing model will make heavy usage more expensive and significantly impact existing users. [qiita-copilot]
🔥 Today's Top 3 importance × recency
  1. OpenAI、Microsoftとの独占パートナーシップを解消 OpenAI ends its exclusive partnership with Microsoft ars-technica 9h ago
  2. DeepMindのDavid Silver、人間データ不要のAI開発に11億ドルを調達 DeepMind’s David Silver just raised $1.1B to build an AI that learns without human data techcrunch 12h ago
  3. MicrosoftとOpenAIの著名なAGI条項が消滅 Microsoft and OpenAI’s famed AGI agreement is dead the-verge 13h ago

Timeline 500 total · page 1/17

TODAY 30 entries
NEW blog mcp 1h ago · qiita-mcp

ChatGPTのRemote MCPをGoogle認証付きで動かしてみた A hands-on report on building a Remote MCP server for ChatGPT's Developer Mode with Google…

AI要約 ChatGPTのDeveloper Mode向けRemote MCPサーバーをGoogle OAuth認証付きで構築した実装例を紹介。認可フローの設定方法やChatGPTから接続する手順を解説し、実際の動作を検証している。

EN A hands-on report on building a Remote MCP server for ChatGPT's Developer Mode with Google OAuth authentication, walking through the authorization flow setup and connection steps from ChatGPT.

qiita.com
ChatGPT の Remote MCP をGoogle認証付きで動かしてみた og
NEW paper research 2h ago · arxiv-cs-ai

数学には二者が必要:コミュニケーションにおける創発的数学的推論のテスト Math Takes Two: A test for emergent mathematical reasoning in communication

AI要約 本論文は、エージェント間のコミュニケーションを通じて数学的推論が創発するかを評価する新しいテストを提案する。単独での問題解決ではなく、二者の協調による数学的概念の伝達能力に焦点を当てている。

EN This paper proposes a new test for evaluating emergent mathematical reasoning in agent-to-agent communication, focusing on cooperative transmission of mathematical concepts between two parties rather than solo problem-solving.

arxiv.org
Math Takes Two: A test for emergent mathematical reasoning in communication og
NEW paper research 2h ago · arxiv-cs-ai

マルチモーダル基盤モデル高速化のためのハード・ソフト技術 Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models

AI要約 マルチモーダル基盤モデルの推論・学習を加速するハードウェアおよびソフトウェア技術に関するフォーカスセッション論文。複数モダリティを扱うモデル特有の計算課題に対応する最適化手法を議論する。

EN A focus session paper discussing hardware and software techniques to accelerate multimodal foundation models, addressing computational challenges unique to handling multiple modalities in inference and training.

arxiv.org
Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models og
NEW paper research 2h ago · arxiv-cs-ai

タスクネットワーク上でのマルチタスク最適化 Multi-Task Optimization over Networks of Tasks

AI要約 複数の関連タスクをネットワーク構造として捉え、その上で協調的に最適化を行うマルチタスク学習手法を提案する論文。タスク間の関係性を活用することで効率的な学習と性能向上を目指す。

EN This paper proposes a multi-task optimization framework where related tasks are organized as a network, leveraging inter-task relationships to enable collaborative optimization and improved learning efficiency.

arxiv.org
Multi-Task Optimization over Networks of Tasks og
NEW paper research 2h ago · arxiv-cs-ai

Mochi: メタ学習で事前学習と推論を整合する効率的グラフ基盤モデル Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

AI要約 本論文は、グラフ基盤モデルにおける事前学習と推論のミスマッチを解消する手法Mochiを提案する。メタ学習を用いて両段階を整合させることで、効率的かつ高精度なグラフ表現学習を実現する。

EN This paper proposes Mochi, a meta-learning approach that aligns pre-training and inference stages for graph foundation models, enabling more efficient and accurate graph representation learning.

arxiv.org
Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning og
NEW paper research 2h ago · arxiv-cs-ai

精神科LLMタスクの信頼性監査:入院リスクスコア生成 Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores

AI要約 精神科領域でLLMが生成する入院リスクスコアの信頼性を監査する研究。下流タスクにおけるLLM出力の妥当性・一貫性を評価し、臨床応用におけるリスク評価の有用性と限界を検証する枠組みを提示する。

EN This paper proposes a reliability auditing framework for downstream LLM tasks in psychiatry, specifically evaluating LLM-generated hospitalization risk scores to assess validity, consistency, and clinical applicability.

arxiv.org
Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores og
NEW paper research 2h ago · arxiv-cs-ai

適応的で再現可能な医用画像処理のためのアーティファクト駆動エージェント基盤 An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

AI要約 医用画像処理ワークフローを適応的かつ再現可能にするため、アーティファクトベースのエージェントフレームワークを提案する論文。エージェントが処理過程の成果物を介して連携し、柔軟なパイプライン構築と再現性確保を両立する仕組みを示す。

EN This paper proposes an artifact-based agent framework for medical image processing, where agents coordinate through shared artifacts to enable adaptive workflow construction while ensuring reproducibility of the processing pipelines.

arxiv.org
An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing og
NEW paper research 2h ago · arxiv-cs-ai

AgentSearchBench: 実環境でのAIエージェント検索ベンチマーク AgentSearchBench: A Benchmark for AI Agent Search in the Wild

AI要約 本論文は、実世界の検索タスクにおけるAIエージェントの性能を評価するための新しいベンチマーク「AgentSearchBench」を提案する。多様な検索シナリオを通じて、エージェントの情報収集能力や推論能力を測定する。

EN This paper introduces AgentSearchBench, a new benchmark designed to evaluate AI agents' performance on real-world search tasks, measuring their information gathering and reasoning capabilities across diverse scenarios.

arxiv.org
AgentSearchBench: A Benchmark for AI Agent Search in the Wild og
NEW paper research 2h ago · arxiv-cs-ai

スキルから才能へ:異種エージェントを実企業のように組織化する From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

AI要約 異種のAIエージェントを現実の企業組織のように配置・連携させる手法を提案。スキルベースの割り当てから才能(タレント)としての役割分担へと拡張し、複雑タスクで高いパフォーマンスを示した。

EN This paper proposes organising heterogeneous AI agents like a real-world company, moving beyond skill-based assignments to talent-based role allocation, demonstrating improved performance on complex collaborative tasks.

arxiv.org
From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company og
NEW paper research 2h ago · arxiv-cs-ai

ABPMSプロセスフレームのハイブリッド性と自動プロセス発見への影響 On the Hybrid Nature of ABPMS Process Frames and its Implications on Automated Process Discovery

AI要約 本論文はAgent-Based Process Management System (ABPMS) におけるプロセスフレームのハイブリッド性を考察し、自動プロセス発見への影響を分析する。構造化要素と非構造化要素の両立が発見手法の精度や適用性に課題をもたらすことを示す。

EN This paper examines the hybrid nature of process frames in Agent-Based Process Management Systems (ABPMS) and discusses how the coexistence of structured and unstructured elements affects the accuracy and applicability of automated process discovery techniques.

arxiv.org
On the Hybrid Nature of ABPMS Process Frames and its Implications on Automated Process Discovery og
NEW paper research 2h ago · arxiv-cs-cl

大規模言語モデルの隠れたランダム性を捉える「背景温度」の提案 Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

AI要約 本論文は大規模言語モデルに内在するランダム性を定量化する新指標「背景温度」を導入する。温度0設定でも残る出力ばらつきを測定し、モデル固有の確率的性質を特徴づける枠組みを提案する。

EN This paper introduces 'background temperature' as a metric to characterise the hidden randomness inherent in large language models, quantifying output variability that persists even at temperature zero settings.

arxiv.org
Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models og
NEW paper research 2h ago · arxiv-cs-cl

スーパーマインド・テスト:プロービングエージェントによるエージェント社会の集合知評価 Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents

AI要約 エージェント社会の集合知を能動的に評価する新手法「Superminds Test」を提案。プロービングエージェントを社会に投入し、集団としての知性を測定する枠組みを構築した研究。

EN This paper proposes the Superminds Test, a framework to actively evaluate the collective intelligence of agent societies by injecting probing agents that measure the group's emergent intelligence.

arxiv.org
Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents og
NEW paper research 2h ago · arxiv-cs-cl

共有された語彙タスク表現がLLMの行動的ばらつきを説明する Shared Lexical Task Representations Explain Behavioral Variability In LLMs

AI要約 LLMの応答ばらつきを、モデル内部の共有された語彙タスク表現の観点から分析した研究。タスクごとに形成される潜在表現が、出力の多様性や一貫性のパターンを説明できることを示している。

EN This research investigates how shared lexical task representations within LLMs account for behavioral variability, demonstrating that latent task encodings explain patterns of output diversity and consistency across prompts.

arxiv.org
Shared Lexical Task Representations Explain Behavioral Variability In LLMs og
NEW paper research 2h ago · arxiv-cs-cl

軽量RAGとLLMによるスケーラブルな患者・治験マッチング Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

AI要約 本研究は、軽量な検索拡張生成(RAG)と大規模言語モデルを組み合わせ、患者と臨床試験を効率的にマッチングする手法を提案。計算資源を抑えつつ高精度なマッチングを実現し、臨床試験の被験者選定の自動化と拡張性向上に貢献する。

EN This paper proposes a scalable patient-trial matching framework combining lightweight retrieval-augmented generation (RAG) with large language models, enabling efficient and accurate matching of patients to clinical trials while reducing computational overhead.

arxiv.org
Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching og
NEW paper research 2h ago · arxiv-cs-cl

会話型精神科問診における大規模質問バンクからの最適質問選択 Optimal Question Selection from a Large Question Bank for Clinical Field Recovery in Conversational Psychiatric Intake

AI要約 会話型精神科問診において、大規模質問バンクから臨床フィールド回復のための最適な質問を選択する手法を提案。患者から効率的に必要情報を引き出すため、質問の有用性を評価し選定するアプローチを示す。

EN This paper proposes a method for selecting optimal questions from a large question bank to recover clinical fields in conversational psychiatric intake, aiming to efficiently elicit necessary patient information.

arxiv.org
Optimal Question Selection from a Large Question Bank for Clinical Field Recovery in Conversational Psychiatric Intake og
NEW paper research 2h ago · arxiv-cs-cl

Universal Transformersにはメモリが必要:適応的再帰推論における深さと状態のトレードオフ Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

AI要約 本論文はUniversal Transformersの適応的再帰推論能力を理論・実験の両面から分析し、深さを増やすだけでは不十分で、状態(メモリ)の保持が不可欠であることを示す。深さと状態次元の間に明確なトレードオフが存在することを明らかにした。

EN This paper analyzes Universal Transformers in adaptive recursive reasoning, showing that increasing depth alone is insufficient and persistent memory state is essential. The authors demonstrate a clear depth-state trade-off both theoretically and empirically.

arxiv.org
Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning og
NEW paper research 2h ago · arxiv-cs-cl

YouTubeの牛尿で便秘治療?LLMによる文化固有の健康誤情報検出の限界 When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

AI要約 本研究はLLMが文化固有の健康誤情報を検出する能力を評価し、英語中心の一般的な誤情報には強いが、牛尿療法など非西洋文化圏特有の誤情報の判定では精度が大きく低下することを示した。多文化対応の評価基準の必要性を指摘している。

EN This paper evaluates LLMs' ability to detect culture-specific health misinformation, finding that while models handle mainstream English misinformation well, they perform significantly worse on non-Western cultural claims such as cow urine remedies, highlighting the need for culturally inclusive benchmarks.

arxiv.org
When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation og
NEW paper research 2h ago · arxiv-cs-cl

視覚言語モデルにおけるソースモダリティ監視 Source-Modality Monitoring in Vision-Language Models

AI要約 視覚言語モデルが情報の出所(画像かテキストか)をどの程度区別できるかを検証した研究。モデル内部表現を解析し、モダリティ起源の追跡能力やその限界を明らかにし、幻覚や誤帰属の抑制に向けた示唆を提示する。

EN This paper investigates whether vision-language models can monitor the source modality (image vs. text) of information they process, analyzing internal representations to reveal the models' ability and limits in tracking modality provenance, with implications for hallucination mitigation.

arxiv.org
Source-Modality Monitoring in Vision-Language Models og
NEW paper research 2h ago · arxiv-cs-cl

強化学習によるVLMのニューロシンボリック言語推論の促進 Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

AI要約 本論文は、強化学習を用いて視覚言語モデル(VLM)にニューロシンボリックな言語ベース推論を促す手法を提案。記号的構造を活用した中間推論を生成させることで、複雑な視覚推論タスクの精度向上を図る。

EN This paper proposes a reinforcement learning approach to incentivize neuro-symbolic language-based reasoning in vision-language models (VLMs), guiding them to generate symbolic intermediate reasoning steps for improved performance on complex visual reasoning tasks.

arxiv.org
Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning og
NEW paper research 2h ago · arxiv-cs-cl

結果報酬は検証可能・因果的に重要な推論を保証しない Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

AI要約 本論文は、結果ベースの報酬による強化学習が、必ずしも検証可能で因果的に重要な推論過程を導かないことを示す。最終回答が正しくても、推論ステップは結論に因果的に寄与していない場合があり、報酬設計の限界を指摘する。

EN This paper shows that outcome-based rewards in RL training do not guarantee that model reasoning steps are verifiable or causally important to the final answer, revealing limitations of outcome-only reward design for reasoning models.

arxiv.org
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning og
NEW paper research 2h ago · arxiv-cs-cl

ローカル展開向けウクライナ語RAG。最適化ハイブリッド検索と軽量生成 An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

AI要約 ローカル環境で動作するウクライナ語向けのエンドツーエンドRAGシステムを提案。最適化されたハイブリッド検索と軽量な生成モデルを組み合わせ、低リソース環境でも実用的な質問応答を実現する。

EN This paper presents an end-to-end Ukrainian RAG system designed for local deployment, combining optimized hybrid search with a lightweight generation model to enable practical QA in low-resource settings.

arxiv.org
NEW paper research 2h ago · arxiv-cs-cl

統合的時間適応のための知識駆動型データ拡張と検索 Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation

AI要約 本論文は、時間とともに変化する情報に言語モデルを適応させるため、知識ベースを活用したデータ拡張と検索手法を提案する。時間的知識を統合することで、モデルの時間推論能力と最新情報への対応力を向上させることを目指す。

EN This paper proposes a knowledge-driven augmentation and retrieval approach for temporal adaptation of language models, integrating knowledge bases to improve handling of time-evolving information and temporal reasoning capabilities.

arxiv.org
NEW paper research 2h ago · arxiv-cs-cl

ハイブリッド言語モデルにおけるLoRA配置の最適化研究 Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

AI要約 ハイブリッド言語モデル(Transformer+状態空間モデル等)において、LoRAをどのコンポーネント種別に配置すべきかを検証した研究。コンポーネントごとの配置がファインチューニング性能に与える影響を分析し、最適な配置戦略を提示している。

EN This paper investigates optimal LoRA placement across different component types in hybrid language models combining Transformers with alternative architectures, analyzing how component-type selection affects fine-tuning performance and proposing effective placement strategies.

arxiv.org
NEW paper research 2h ago · arxiv-cs-cl

括弧列Transformerにおけるデコード可能性と因果的利用の分離 Dissociating Decodability and Causal Use in Bracket-Sequence Transformers

AI要約 括弧列タスクで訓練したTransformerを用い、内部表現から情報がデコードできることと、その情報がモデルの予測に因果的に利用されていることが必ずしも一致しないことを示した研究。解釈可能性研究におけるプロービング手法の限界を指摘する。

EN This study uses bracket-sequence Transformers to demonstrate that information decodable from internal representations is not necessarily causally used by the model for predictions, highlighting limitations of probing-based interpretability methods.

arxiv.org
NEW paper research 2h ago · arxiv-cs-cl

SHAPE: 教育用LLMの安全性・有用性・教育性を統合する枠組み SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs

AI要約 教育向けLLMにおいて、安全性・有用性・教育的妥当性の3要素を同時に最適化するフレームワークSHAPEを提案。これら3軸を統一的に評価・学習し、従来のトレードオフを解消することを目指す研究。

EN This paper proposes SHAPE, a unified framework for educational LLMs that jointly optimizes safety, helpfulness, and pedagogical soundness, aiming to overcome trade-offs among these three objectives in tutoring applications.

arxiv.org
NEW paper research 2h ago · arxiv-cs-lg

Transformer学習のスペクトル進化:過渡的圧縮波とQ/K-V非対称性 The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

AI要約 本論文はTransformer学習中の重み行列のスペクトル動態を分析し、過渡的な圧縮波と持続的なスペクトル勾配の存在を示す。さらにQ/KとVの間に明確な非対称性があることを明らかにし、注意機構の役割分担を解釈する手がかりを提供する。

EN This paper analyzes the spectral dynamics of weight matrices during Transformer training, identifying transient compression waves and persistent spectral gradients, and reveals a clear Q/K vs. V asymmetry that sheds light on functional roles within attention.

arxiv.org
The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry og
NEW paper research 2h ago · arxiv-cs-lg

KARL:知識境界を意識した強化学習によるLLMの幻覚軽減 KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

AI要約 本論文は、LLMの幻覚を抑制するため、モデルの知識境界を認識した強化学習手法KARLを提案する。モデルが知っている事項のみを答え、未知の事項は拒否するよう学習させ、事実性タスクで幻覚率を低減する。

EN This paper introduces KARL, a knowledge-boundary-aware reinforcement learning method that mitigates hallucinations in LLMs by training models to answer only what they know and refuse otherwise, improving factual reliability.

arxiv.org
KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning og
NEW paper research 2h ago · arxiv-cs-lg

BiTA: 計算機ネットワークのアラート予測向け時系列グラフネットワーク BiTA: Bidirectional Gated Recurrent Unit-Transformer Aggregator in a Temporal Graph Network Framework for Alert Prediction in Computer Networks

AI要約 本論文は、コンピュータネットワークのアラート予測に向けた時系列グラフネットワーク(TGN)フレームワークを提案する。双方向GRUとTransformerを組み合わせた集約器BiTAを導入し、時系列依存関係を捉えることで予測精度を向上させる。

EN This paper proposes BiTA, a Bidirectional GRU-Transformer Aggregator within a Temporal Graph Network framework, designed for alert prediction in computer networks by capturing temporal dependencies to improve predictive accuracy.

arxiv.org
BiTA: Bidirectional Gated Recurrent Unit-Transformer Aggregator in a Temporal Graph Network Framework for Alert Prediction in Computer Networks og
NEW paper research 2h ago · arxiv-cs-lg

確率的KVルーティング: 適応的な層方向キャッシュ共有の実現 Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

AI要約 Transformerの推論コスト削減のため、層間でKVキャッシュを共有する新手法を提案。確率的ルーティングにより、各トークンが動的に異なる層のキャッシュを参照可能にし、適応的な深さ方向の共有を実現する。

EN Proposes Stochastic KV Routing, a method enabling adaptive depth-wise KV cache sharing across Transformer layers. Tokens probabilistically route to different layers' caches, reducing inference costs while maintaining model quality.

arxiv.org