v1.1.5-pre v1.1.5-pre
Fixed the git: worktree popup listing no worktrees when a project was opened at the parent of a .bare directory (bare-clone-with-sibling-worktrees layout). ( #55790 ) Fixed a crash when pasting an ima
Fixed the git: worktree popup listing no worktrees when a project was opened at the parent of a .bare directory (bare-clone-with-sibling-worktrees layout). ( #55790 ) Fixed a crash when pasting an ima
AI要約 本論文は質的研究に生成AIを取り入れる「Vibe Research」の是非を検討する。AIによるコーディングや分析支援の利点を認めつつ、解釈の妥当性や研究者の役割、倫理的課題を議論し、適切な活用指針を提示する。
EN This paper examines the use of generative AI in qualitative research ('vibe research'), discussing benefits like AI-assisted coding and analysis alongside concerns about interpretive validity, researcher agency, and ethical implications, offering guidance for responsible adoption.
og AI要約 Code World Model(CWM)のリリースに伴う安全性評価レポート。サイバーセキュリティ、化学・生物兵器、AI自己改善などの主要リスク領域について評価を実施し、重大なリスクは確認されなかったと報告している。
EN A preparedness report evaluating the Code World Model (CWM) across critical risk domains including cybersecurity, CBRN, and AI self-improvement, finding no significant risk thresholds crossed.
og AI要約 AI支援によるソフトウェア開発で生産性と信頼性が両立しないパラドックスを指摘し、仕様駆動型ガバナンスによってAI生成コードの品質と保守性を担保する枠組みを提案する研究論文。
EN This paper highlights the productivity-reliability paradox in AI-augmented software development and proposes a specification-driven governance framework to ensure quality and maintainability of AI-generated code.
og AI要約 GitHub上のリポジトリ分析と実務者へのアンケートを通じて、ソフトウェア設計プロセスにおける大規模言語モデル(LLM)の利用実態を実証的に調査した研究。設計タスクへのLLM適用の現状と課題、利点を明らかにする。
EN An empirical study examining how large language models are used in software design, combining analysis of GitHub repositories with a survey of practitioners to identify current adoption patterns, benefits, and challenges.
og AI要約 形式手法における仕様生成タスク向けの新ベンチマークLiveFMBenchを提案。エージェント型LLMワークフローの性能と限界を評価し、複雑な仕様の自動生成における課題を明らかにした。
EN This paper introduces LiveFMBench, a benchmark for evaluating agentic LLM workflows on formal specification generation, revealing both the capabilities and limitations of current agent-based approaches in producing complex specifications.
og AI要約 本研究はLLM駆動のマルチエージェントシステムによる自律的なテスト修復の実用的限界を検証する事例研究である。発見と自己修正の能力を評価し、現状の手法では完全自動化に課題が残ることを示した。
EN A case study examining the practical limits of autonomous test repair using a multi-agent system with LLM-driven discovery and self-correction, highlighting remaining challenges for full automation.
og AI要約 本論文は、生成AIエージェントを活用した説明可能なトピックモデリング手法「Agentopic」を提案する。従来のトピックモデルに比べ、エージェントによる反復的な処理で解釈性と精度を向上させ、抽出されたトピックに対する説明能力を高めている。
EN This paper proposes Agentopic, a generative AI agent-based workflow for explainable topic modeling. By leveraging iterative agent reasoning, it improves interpretability and accuracy over traditional topic models while providing explanations for extracted topics.
og AI要約 本論文はStyleShieldを提案し、連続的かつ制御可能なスタイル転送を用いてAIGC(AI生成コンテンツ)検出器の脆弱性を明らかにする。スタイルの強度を調整することで検出器を回避でき、既存検出手法の頑健性に重大な課題があることを示した。
EN This paper introduces StyleShield, which exposes the fragility of AIGC detectors via continuous controllable style transfer. By adjusting style intensity, the method can evade detection, revealing significant robustness limitations in current AIGC detection approaches.
og AI要約 産業制御システム向けの異常検知手法PhaseNet++を提案。周波数領域での位相情報とセンサ間の位相コヒーレンスグラフを活用し、従来の振幅ベース手法では捉えにくい微細な異常を検出する。
EN PhaseNet++ is a phase-aware frequency-domain anomaly detection method for industrial control systems that leverages phase coherence graphs across sensors to detect subtle anomalies missed by amplitude-based approaches.
og AI要約 持続血糖モニタ(CGM)データに対して、予測的自己教師あり学習フレームワークJEPAを応用した手法CGM-JEPAを提案。マスクされた領域の表現を予測することで一貫した連続血糖表現を学習し、下流タスクでの性能向上を示した。
EN This paper introduces CGM-JEPA, a predictive self-supervised pretraining framework that learns consistent representations of continuous glucose monitor (CGM) data by predicting masked region embeddings, improving performance on downstream health tasks.
og AI要約 図表質問応答(Diagram QA)における推論プロセスを段階的に評価・帰属するためのレビューフレームワーク「DIAGRAMS」を提案。回答の正誤だけでなく、どの推論ステップで誤りが生じたかを特定し、モデルの弱点分析を可能にする。
EN This paper introduces DIAGRAMS, a review framework for attributing reasoning steps in Diagram Question Answering. It enables fine-grained evaluation by pinpointing where models fail in the reasoning chain rather than only judging final answer correctness.
og AI要約 AI安全性研究で用いられるモデル生物(意図的に挙動を操作したファインチューニング済みモデル)が、ベースモデルとのパープレキシティ差分を取るだけでファインチューニングの目的が頻繁に漏洩することを示した研究。隠蔽の難しさを指摘する。
EN This paper shows that model organisms used in AI safety research often leak their finetuning objectives through simple perplexity differencing against base models, revealing fundamental challenges in concealing training goals.
og AI要約 チューターと学生の対話を対象に、難易度を考慮した解釈可能な知識追跡手法を提案。発話単位で問題の難易度と学生の知識状態を推定し、従来手法より高精度かつ説明可能な学習者モデリングを実現する。
EN This paper proposes an interpretable difficulty-aware knowledge tracing method for tutor-student dialogues, estimating problem difficulty and student knowledge at the utterance level for more accurate and explainable learner modeling.
og AI要約 ハイブリッド言語モデル(Transformer+SSM等)向けの自己投機的デコーディング手法を提案。モデル内のコンポーネントを認識して投機実行することで、追加のドラフトモデルなしに推論を高速化する研究。
EN This paper proposes a component-aware self-speculative decoding method for hybrid language models that combine Transformer and SSM components, accelerating inference without requiring a separate draft model.
AI要約 言語モデルの潜在表現から階層的構造を抽出する新手法「H-Probes」を提案する研究。プロービング技術を用いて、モデル内部に符号化された構文木などの階層情報を解析し、言語モデルの表現能力の理解に貢献する。
EN This paper introduces H-Probes, a probing technique designed to extract hierarchical structures (such as syntactic trees) from the latent representations of language models, contributing to interpretability research on what hierarchical information is encoded internally.
AI要約 RECAPは、AI支援によるプログラミング作業中のユーザーとAIの対話を捕捉・再生・分析するためのエンドツーエンド基盤を提案する研究。開発者の行動やAI利用パターンを詳細に記録し再現することで、AIコーディング支援の評価や改善に役立つ分析を可能にする。
EN RECAP is an end-to-end platform designed to capture, replay, and analyze interactions between developers and AI assistants during programming sessions, enabling detailed study and evaluation of AI-assisted coding workflows.
AI要約 LLMによるニュース記事のリライト介入が、党派を超えた受容性を高めることを実証した研究。一方でLLM自身は介入の効果を過大に見積もる傾向があり、自己評価の信頼性に課題があることを示した。
EN This study shows that LLM-based rewriting interventions on news articles can improve cross-partisan receptivity, but LLMs tend to overestimate the effectiveness of their own debiasing interventions when self-evaluating.
AI要約 研究はLLMが心理的に強力な社会的比較を引き起こすコンテンツを生成できる一方で、自らが生成したそのトリガーを検出できないことを示した。生成と検知の能力にギャップがある安全性上の懸念を提起する。
EN This study finds that LLMs can generate content that triggers psychologically potent social comparison effects, yet fail to detect these same triggers, revealing a gap between generation and detection capabilities with safety implications.
AI要約 本論文は、LLMに対する攻撃を構成的スキルの組み合わせとして捉え、ゲーム理論的枠組みで分析する。攻撃者と防御者の相互作用をモデル化し、スキル合成による新たな脆弱性とその防御戦略について理論的考察を行う。
EN This paper proposes a game-theoretic framework to analyze attacks on LLMs as compositions of skills, modeling attacker-defender interactions and theoretically examining vulnerabilities arising from skill composition along with potential defense strategies.
EN arXiv:2605.01065v1 Announce Type: new Abstract: The goal of differentially private text obfuscation is to obfuscate, or "perturb", input texts with Differential Privacy (DP) guarantees, such that the
EN arXiv:2605.01073v1 Announce Type: new Abstract: The paper studies the local geometry of embedding clouds induced by \emph{controlled local classes of semantically close sentences}. The central questio
EN arXiv:2605.01077v1 Announce Type: new Abstract: Brazil's Unified Health System (SUS) relies on official clinical guidelines that define diagnostic criteria, treatments, dosages, and monitoring procedu
EN arXiv:2605.01168v1 Announce Type: new Abstract: It is increasingly recognized that human annotators do not always agree, and such disagreement is inherent in many annotation tasks. However, not all in
EN arXiv:2605.01188v1 Announce Type: new Abstract: Scaling laws enable the optimal selection of data amount and language model size, yet the impact of the data unit, the token, on this relationship remai
EN arXiv:2605.01011v1 Announce Type: new Abstract: Medical large language model (LLM) evaluations rely on simplified, exam-style benchmarks that rarely reflect the ambiguity of real-world medical inquiri
EN arXiv:2605.02904v1 Announce Type: new Abstract: We present StateSMix, a fully self-contained lossless compressor that couples an online-trained Mamba-style State Space Model (SSM) with sparse n-gram c
EN arXiv:2605.02905v1 Announce Type: new Abstract: We show that the key-value (KV) cache in transformer attention heads admits a natural decomposition into a low-rank \emph{shared context} component and
EN arXiv:2605.02906v1 Announce Type: new Abstract: In the field of software operations, Large Language Models (LLMs) have attracted increasing attention. However, existing research has not yet achieved e
EN arXiv:2605.02907v1 Announce Type: new Abstract: Softmax attention maps every query--key interaction into a probability distribution, but the underlying structure remains largely unexplored. We define
EN arXiv:2605.02909v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a powerful approach for improving the reasoning capabilities of large language models (