LIVE · 05/04
local-llmRELOllama v0.23.0リリース、Vulkanサポートを追加v0.23.0[ollama-releases]agent-fwRELlangchain-anthropic==1.4.3langchain-anthropic==1.4.3[langchain-releases]agent-fwRELlangchain-classic==1.0.5langchain-classic==1.0.5[langchain-releases]claudeClaude Managed Agentsとは?従来の自前実装との違いClaude Managed Agents is a framework where Anthropic manages the agent execution infrastru…[qiita-claude]claudeClaude Mythos Preview入門 — SWE-bench 93.9%とProject Glasswingの全貌An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project …[zenn-claude]local-llmLLMに戦略を聞くと96%が『差別化』を選ぶ — HBR論文が示すTrendslopとはAn HBR paper reveals that when asked to choose business strategies, 96% of LLM responses f…[zenn-llm]tech-newsHarvardの研究、ER診断でAIが医師2人を上回る精度を示すIn Harvard study, AI offered more accurate emergency room diagnoses than two human doctors[techcrunch]local-llmRELOllama v0.21.3 リリース候補版を公開v0.21.3[ollama-releases]vscodeRELZed nightly: 新規ファイル作成時のフォーマット適用を修正nightly: agent: Remove new thread location setting (#55575)[zed-releases]vscodeRELZed collab-staging リリースcollab-staging[zed-releases]researchTADI: エージェント型LLMによる掘削現場データ統合知能TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data[arxiv-cs-ai]researchAgentReputation: 分散型エージェンティックAIの評判フレームワークAgentReputation: A Decentralized Agentic AI Reputation Framework[arxiv-cs-ai]research大規模言語モデルのジェイルブレイク成功に対する最小・局所・因果的説明Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models[arxiv-cs-ai]researchツールだけで十分か? LLMエージェントにおけるツール利用の代償を解明Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents[arxiv-cs-ai]researchTUR-DPO: トポロジーと不確実性を考慮した直接選好最適化TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization[arxiv-cs-ai]researchARMOR 2025: 軍事領域に対応したLLM安全性ベンチマークARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts[arxiv-cs-ai]research集合的エージェンシーの因果的基礎Causal Foundations of Collective Agency[arxiv-cs-ai]research旅行計画最適化のためのエージェント型AIアプリケーションAgentic AI for Trip Planning Optimization Application[arxiv-cs-ai]research物理的にネイティブな世界モデル:生成的世界モデリングへのハミルトニアン視点Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling[arxiv-cs-ai]researchAEM: マルチターンエージェント強化学習のための適応的エントロピー変調AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning[arxiv-cs-ai]researchテキストと画像で思考する: 長期ロボット操作のための交互視覚言語推論トレースThinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation[arxiv-cs-ai]research電気容量制約車両ルーティング問題向け二層LAHCのインスタンス適応パラメータ設定Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem[arxiv-cs-ai]researchAgentFloor: 小型オープンウェイトモデルはツール利用でどこまで通用するかAgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?[arxiv-cs-cl]research人間と機械の共生におけるAIの役割についてOn the Role of Artificial Intelligence in Human-Machine Symbiosis[arxiv-cs-cl]
Today 103
Total 500
Major 17
Sources 40
Updated just now
Daily Summary

今日の更新

Today's Updates

Today 103 ▲ 41%
Yesterday 73
7-day 386
Last 7 days
26
30
41
49
64
73
103
04/28 04/29 04/30 05/01 05/02 05/03 05/04
主要な更新 Top stories 05/04 · 10 件
  1. 01 local-llm REL Ollama v0.23.0リリース、Vulkanサポートを追加 v0.23.0 OllamaのバージョンアップでVulkanサポートが追加され、AMDやIntelなど幅広いGPUでの推論実行が可能となった。互換性が向上し、より多様なハードウェア環境で利用しやすくなっている。 Ollama v0.23.0 adds Vulkan support, enabling inference on a broader range of GPUs including AMD and Intel hardware, improving compatibility across diverse system configurations. [ollama-releases]
  2. 02 agent-fw REL langchain-anthropic==1.4.3 langchain-anthropic==1.4.3 Changes since langchain-anthropic==1.4.2 release(anthropic): 1.4.3 ( #37166 ) refactor(langchain-classic): retarget deprecations to create_agent , other chores ( #37164 ) chore(docs): update x handle [langchain-releases]
  3. 03 agent-fw REL langchain-classic==1.0.5 langchain-classic==1.0.5 Changes since langchain-classic==1.0.4 release(langchain-classic): 1.0.5 ( #37165 ) refactor(langchain-classic): retarget deprecations to create_agent , other chores ( #37164 ) chore(langchain,langcha [langchain-releases]
  4. 04 claude Claude Managed Agentsとは?従来の自前実装との違い Claude Managed Agents is a framework where Anthropic manages the agent execution infrastru… Claude Managed Agentsは、従来開発者が自前で構築していたエージェントの実行基盤をAnthropic側で管理する仕組み。インフラ運用やスケーリングの手間を省き、開発者はエージェントのロジックに集中できる点が従来実装との大きな違いとなる。 Claude Managed Agents is a framework where Anthropic manages the agent execution infrastructure that developers previously built themselves. It frees developers from infrastructure and scaling concerns, letting them focus on agent logic, marking a key difference from custom implementations. [qiita-claude]
  5. 05 claude Claude Mythos Preview入門 — SWE-bench 93.9%とProject Glasswingの全貌 An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project … AnthropicのProject Glasswingで開発中の次世代モデルClaude Mythos Previewを紹介。SWE-bench Verifiedで93.9%という驚異的なスコアを達成し、長時間の自律的コーディングや高度なエージェント機能を備える点を解説する。 An introduction to Claude Mythos Preview, Anthropic's next-generation model under Project Glasswing, which achieves a remarkable 93.9% on SWE-bench Verified and offers extended autonomous coding and advanced agentic capabilities. [zenn-claude]
  6. 06 local-llm LLMに戦略を聞くと96%が『差別化』を選ぶ — HBR論文が示すTrendslopとは An HBR paper reveals that when asked to choose business strategies, 96% of LLM responses f… HBR論文によれば、複数のLLMに戦略選択を尋ねると96%が『差別化戦略』を選ぶ傾向があり、これをTrendslopと命名。LLMの回答の偏りが企業戦略の同質化を招くリスクを指摘し、多様な視点の確保が重要だと論じる。 An HBR paper reveals that when asked to choose business strategies, 96% of LLM responses favor 'differentiation,' a bias dubbed Trendslop. This homogenization risk in AI-driven strategic advice highlights the need for diverse perspectives in corporate decision-making. [zenn-llm]
  7. 07 tech-news Harvardの研究、ER診断でAIが医師2人を上回る精度を示す In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors Harvard大学の研究によれば、AIモデルは救急外来における診断精度で人間の医師2名を上回る結果を示した。AIが医療現場の意思決定支援で有望であることを裏付ける一方、臨床導入には慎重な検証が求められる。 A Harvard study found that an AI model produced more accurate emergency room diagnoses than two human doctors, highlighting AI's promise as a clinical decision support tool while underscoring the need for careful validation before deployment. [techcrunch]
  8. 08 local-llm REL Ollama v0.21.3 リリース候補版を公開 v0.21.3 OllamaのバージョンアップでリリースキャンディデートのRCバージョンv0.21.3-rc0が公開された。詳細な変更点はリリースノートに記載されており、通常のメンテナンス更新と位置付けられる。 Ollama published the v0.21.3-rc0 release candidate, a routine maintenance update with minor changes detailed in its release notes. [ollama-releases]
  9. 09 vscode REL Zed nightly: 新規ファイル作成時のフォーマット適用を修正 nightly: agent: Remove new thread location setting (#55575) Zedエディタのnightlyビルドにて、新しいファイルが初めて作成される際にフォーマット適用が正しく動作しない不具合を修正した。pane関連の小規模なバグ修正である。 A nightly Zed build fixes a bug where formatting was not properly applied when a new file was first created, addressing a minor pane-related issue. [zed-releases]
  10. 10 vscode REL Zed collab-staging リリース collab-staging Zedエディタのコラボレーション機能向けステージング環境のリリースタグです。本番展開前の検証用で、エンドユーザー向けの新機能や変更点は含まれていません。 A staging release tag for Zed's collaboration backend, used for pre-production validation. It contains no user-facing feature changes. [zed-releases]
🔥 Today's Top 3 importance × recency
  1. Cursorに「git clone」だけでPC乗っ取り、CVSS 9.9の重大脆弱性 A critical CVSS 9.9 vulnerability in Cursor allows arbitrary code execution merely by git … qiita-cursor 23h ago
  2. Microsoft、Agent 365を一般提供開始 AIエージェントを全社で統合管理 Agent 365 is now generally available! We’re extending the systems customers already use for identity, security, governance and management to every AI agent and their interactions across the enterprise. Read more… microsoft-source 2d ago
  3. Microsoft Agent 365、エージェントの統制基盤として一般提供開始 Microsoft Agent 365, the control plane for agents, now generally available microsoft-source 2d ago

Timeline 500 total · page 1/17

TODAY 30 entries
NEW blog claude 12m ago · qiita-claude

AIと100万文字書いた話──Claude×Geminiハイブリッド創作フローの結論 After writing over a million characters with AI, the author shares a hybrid creative workf…

AI要約 AIで100万文字以上の小説執筆を経た著者が、ClaudeとGeminiを役割分担で使い分けるハイブリッド創作フローを紹介。Claudeは文章生成・心理描写、Geminiは構成・整合性チェックを担当し、両者の長所を活かした実践的ワークフローを解説する。

EN After writing over a million characters with AI, the author shares a hybrid creative workflow combining Claude for prose and emotional depth with Gemini for structure and consistency checks, showcasing how each AI's strengths complement the other.

qiita.com
AIと100万文字書いた話──Claude×Geminiハイブリッド創作フローの結論 og
NEW blog claude 17m ago · qiita-claude

Claude Coworkで「Qiita自動投稿bot」を1日で組んだ話 A developer recounts how they built a Qiita auto-posting bot in just one day using Claude …

AI要約 Claude Coworkを使って、Qiitaへの記事自動投稿botをわずか1日で開発した実例を紹介。AIエージェントによるコード生成と連携機能を活用し、短期間で実用的な自動化ツールを構築するプロセスを解説している。

EN A developer recounts how they built a Qiita auto-posting bot in just one day using Claude Cowork, demonstrating how AI agents can rapidly produce practical automation tools through code generation and integration.

qiita.com
Claude Coworkで「Qiita自動投稿bot」を1日で組んだ話 og
NEW blog claude 1h ago · qiita-claude

Claude Codeのセッション上限到達時に自動再開するスクリプトを作成 The author created a script that automatically resumes Claude Code sessions after hitting …

AI要約 Claude Codeで「You've hit your limit」エラーに遭遇した際、リセット時刻まで待機して自動的に作業を再開するスクリプトを作成した記事。エラーメッセージから時刻を解析し、指定時間まで待ってセッションを再開する仕組みを紹介している。

EN The author created a script that automatically resumes Claude Code sessions after hitting the usage limit. It parses the reset time from the error message and waits until the specified time to restart the session.

qiita.com
【Claude Code】セッション上限(You've hit your limit · resets H:MM)に到達した時のための自動再開スクリプトを作った og
NEW paper research 3h ago · arxiv-cs-ai

TADI: エージェント型LLMによる掘削現場データ統合知能 TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data

AI要約 異種の油田掘削データに対し、エージェント型LLMオーケストレーションとツール拡張を組み合わせた掘削知能システムTADIを提案。複数データソースを統合し、現場の意思決定支援を実現する研究である。

EN TADI proposes a tool-augmented drilling intelligence system that uses agentic LLM orchestration over heterogeneous wellsite data to integrate diverse sources and support drilling decision-making.

arxiv.org
TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data og
NEW paper research 3h ago · arxiv-cs-ai

AgentReputation: 分散型エージェンティックAIの評判フレームワーク AgentReputation: A Decentralized Agentic AI Reputation Framework

AI要約 自律AIエージェント向けの分散型評判管理フレームワーク「AgentReputation」を提案。エージェント間の信頼性評価を分散的に行い、悪意ある行動の抑制や安全な協調を実現する仕組みを示している。

EN This paper proposes AgentReputation, a decentralized reputation framework for agentic AI systems that enables trust evaluation among autonomous agents to mitigate malicious behavior and support safe multi-agent collaboration.

arxiv.org
AgentReputation: A Decentralized Agentic AI Reputation Framework og
NEW paper research 3h ago · arxiv-cs-ai

大規模言語モデルのジェイルブレイク成功に対する最小・局所・因果的説明 Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

AI要約 本研究は大規模言語モデルにおけるジェイルブレイク攻撃の成功要因を、最小・局所・因果的な観点から説明する手法を提案する。モデル内部の特定要素を介入実験で検証し、安全機構の脆弱性を解釈可能な形で明らかにする。

EN This paper proposes a method to explain why jailbreak attacks succeed in large language models through minimal, local, and causal interventions, identifying specific internal components responsible for safety bypasses in an interpretable manner.

arxiv.org
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models og
NEW paper research 3h ago · arxiv-cs-ai

ツールだけで十分か? LLMエージェントにおけるツール利用の代償を解明 Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

AI要約 本研究はLLMエージェントがツールを使う際に生じる性能劣化「ツール利用税」を分析。ツール導入が必ずしも精度向上に繋がらず、推論能力やコストに悪影響を及ぼす場合があることを実証的に示した。

EN This paper investigates the 'tool-use tax' in LLM agents, showing that integrating external tools does not always improve performance and can degrade reasoning quality and increase costs across various benchmarks.

arxiv.org
Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents og
NEW paper research 3h ago · arxiv-cs-ai

TUR-DPO: トポロジーと不確実性を考慮した直接選好最適化 TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

AI要約 本論文は、選好データのトポロジー構造と不確実性を取り込んだ新しい直接選好最適化(DPO)手法TUR-DPOを提案する。従来のDPOが見落としがちな選好の幾何学的関係と信頼度を活用し、より頑健な言語モデルアラインメントを実現する。

EN The paper proposes TUR-DPO, a Direct Preference Optimization variant that incorporates topological structure and uncertainty estimation of preference data to achieve more robust language model alignment compared to standard DPO.

arxiv.org
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization og
NEW paper research 3h ago · arxiv-cs-ai

ARMOR 2025: 軍事領域に対応したLLM安全性ベンチマーク ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

AI要約 ARMOR 2025は、民間中心の評価では捉えきれない軍事的文脈における大規模言語モデルの安全性を評価するベンチマーク。軍事ドクトリンに整合した敵対的プロンプトを用い、既存LLMの脆弱性を明らかにする。

EN ARMOR 2025 is a new benchmark for evaluating LLM safety in military-aligned contexts beyond civilian use cases. It uses doctrine-aligned adversarial prompts to reveal vulnerabilities in current models that standard safety evaluations miss.

arxiv.org
ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts og
NEW paper research 3h ago · arxiv-cs-ai

集合的エージェンシーの因果的基礎 Causal Foundations of Collective Agency

AI要約 本論文は、複数主体による集合的行為主体性(collective agency)を因果モデルの枠組みで定式化する研究である。個々のエージェントの介入と結果の因果関係を分析し、集団としての意図や責任の帰属を理論的に基礎づけることを目指している。

EN This paper formalizes collective agency through a causal modeling framework, analyzing how interventions by multiple agents jointly produce outcomes and providing theoretical foundations for attributing intentions and responsibility to groups.

arxiv.org
Causal Foundations of Collective Agency og
NEW paper research 3h ago · arxiv-cs-ai

旅行計画最適化のためのエージェント型AIアプリケーション Agentic AI for Trip Planning Optimization Application

AI要約 本論文は、旅行計画の最適化に向けたエージェント型AIアプリケーションを提案する。複数のAIエージェントが連携し、ユーザーの好みや制約に基づき行程・予算・交通手段などを動的に最適化する仕組みを示し、従来手法との比較で有効性を検証している。

EN This paper presents an agentic AI application for trip planning optimization, where multiple cooperating AI agents dynamically optimize itineraries, budgets, and transportation based on user preferences and constraints, demonstrating effectiveness over traditional methods.

arxiv.org
Agentic AI for Trip Planning Optimization Application og
NEW paper research 3h ago · arxiv-cs-ai

物理的にネイティブな世界モデル:生成的世界モデリングへのハミルトニアン視点 Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

AI要約 本論文は生成的世界モデリングをハミルトニアン力学の観点から再構築し、物理法則に忠実な世界モデルを提案する。エネルギー保存や対称性を内在化することで、より一貫性のある長期予測とシミュレーションを可能にする枠組みを示す。

EN This paper reframes generative world modeling through a Hamiltonian dynamics perspective, proposing physically native world models that embed conservation laws and symmetries to enable more consistent long-horizon prediction and simulation.

arxiv.org
Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling og
NEW paper research 3h ago · arxiv-cs-ai

AEM: マルチターンエージェント強化学習のための適応的エントロピー変調 AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

AI要約 マルチターンのエージェント型強化学習において探索と活用のバランスを取るため、エントロピーを適応的に調整するAEM手法を提案。学習の安定性と性能を向上させる。

EN AEM proposes an adaptive entropy modulation technique for multi-turn agentic reinforcement learning, dynamically balancing exploration and exploitation to improve training stability and performance.

arxiv.org
AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning og
NEW paper research 3h ago · arxiv-cs-ai

テキストと画像で思考する: 長期ロボット操作のための交互視覚言語推論トレース Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

AI要約 長期的なロボット操作タスクに向け、テキストと画像を交互に組み合わせた視覚言語推論トレースを提案。視覚的な中間ステップを生成することで、計画と実行の精度を高め、複雑な操作課題への対応力を向上させる手法を示す。

EN This paper proposes interleaved vision-language reasoning traces that combine text and images for long-horizon robot manipulation tasks, enabling models to generate visual intermediate steps that improve planning and execution accuracy on complex manipulation problems.

arxiv.org
Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation og
NEW paper research 3h ago · arxiv-cs-ai

電気容量制約車両ルーティング問題向け二層LAHCのインスタンス適応パラメータ設定 Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem

AI要約 電気容量制約付き車両ルーティング問題(E-CVRP)に対し、二層型Late Acceptance Hill Climbing(LAHC)を提案。インスタンスの特性に応じてパラメータを自動調整する仕組みを導入し、解の品質と計算効率の両立を図る。

EN This paper proposes a bilevel Late Acceptance Hill Climbing (LAHC) algorithm for the Electric Capacitated Vehicle Routing Problem, featuring instance-aware parameter configuration that adapts to problem characteristics to balance solution quality and computational efficiency.

arxiv.org
Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem og
NEW paper research 3h ago · arxiv-cs-cl

AgentFloor: 小型オープンウェイトモデルはツール利用でどこまで通用するか AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

AI要約 小型のオープンウェイトLLMがエージェント的なツール利用タスクでどの程度の性能に到達できるかを評価するベンチマーク「AgentFloor」を提案。各種モデルの能力の下限と上限を体系的に比較し、ツール使用能力の限界を明らかにする。

EN Introduces AgentFloor, a benchmark that systematically evaluates how far small open-weight LLMs can climb the tool-use capability ladder, comparing models to reveal performance floors and ceilings on agentic tasks.

arxiv.org
AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go? og
NEW paper research 3h ago · arxiv-cs-cl

人間と機械の共生におけるAIの役割について On the Role of Artificial Intelligence in Human-Machine Symbiosis

AI要約 本論文は人間と機械の共生におけるAIの役割を考察し、AIが人間の能力を拡張するパートナーとして機能する枠組みを提示。自律的な代替ではなく協調的な相互作用の重要性を論じている。

EN This paper examines the role of AI in human-machine symbiosis, proposing frameworks where AI augments human capabilities as a collaborative partner rather than an autonomous replacement, emphasizing cooperative interaction.

arxiv.org
NEW paper research 3h ago · arxiv-cs-cl

HUMANSを最優先:人間の嗜好に整合した効率的なLAM評価 Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

AI要約 大規模行動モデル(LAM)の評価において、人間の嗜好と整合する効率的な評価手法HUMANSを提案。従来の自動評価では捉えきれない実利用での品質を測定し、人間の判断との一致度を高めることを目指す。

EN This paper introduces HUMANS, an efficient evaluation framework for Large Action Models (LAMs) that aligns with human preferences, addressing limitations of automated metrics in capturing real-world usability and judgment.

arxiv.org
NEW paper research 3h ago · arxiv-cs-cl

NorBERTo: 3310億トークンで訓練されたポルトガル語向けModernBERT NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

AI要約 ポルトガル語に特化したModernBERTアーキテクチャの言語モデルNorBERToを発表。3310億トークンの大規模コーパスで訓練され、ポルトガル語NLPタスクでの性能向上を目指す。

EN NorBERTo is a ModernBERT-based language model pretrained for Portuguese on a 331 billion token corpus, aiming to improve performance on Portuguese NLP tasks.

arxiv.org
NEW paper research 3h ago · arxiv-cs-cl

フロンティアLLMの神経多様性適応:表層的変化と構造的変化の測定枠組み How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses

AI要約 本論文は、システムプロンプトで神経多様性の文脈を与えた際に、フロンティアLLMの応答がどう変化するかを評価する測定枠組みを提案する。表層的な言葉遣いの変化と、構造的・本質的な内容変化を区別して分析している。

EN This paper proposes a measurement framework to evaluate how frontier LLMs adapt their responses when given neurodivergence context via system prompts, distinguishing between surface-level wording changes and deeper structural shifts in content.

arxiv.org
NEW paper research 3h ago · arxiv-cs-cl

Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory

EN arXiv:2605.00238v1 Announce Type: new Abstract: Automated short answer grading (ASAG) with large language models (LLMs) is commonly evaluated with aggregate metrics such as macro-F1 and Cohen's kappa.

arxiv.org