HomeTags#llm-evaluation

#llm-evaluation page 1/1 · 2 total

TODAY 2 entries
NEW paper research 5h ago · arxiv-cs-cl

本論文LiFTは、大規模言語モデルにおける指示ファインチューニングが、縦断的(時系列)モデリングの文脈内学習能力を向上させるかを検証する LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

AI要約 本論文LiFTは、大規模言語モデルにおける指示ファインチューニングが、縦断的(時系列)モデリングの文脈内学習能力を向上させるかを検証する。指示調整モデルとベースモデルを比較し、長期的なデータパターン把握への影響を評価した。

EN LiFT investigates whether instruction fine-tuning improves in-context learning performance of large language models on longitudinal modelling tasks, comparing instruction-tuned and base models on capturing temporal data patterns.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

AI要約 KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク。実世界のタスクに潜む課題をモデルが気付けるかを評価し、従来の指示追従型評価を補完する。

EN KWBench is a new benchmark measuring whether LLMs can spontaneously recognize problems in knowledge work tasks without explicit prompting, complementing traditional instruction-following evaluations.

arxiv.org
fallback