HomeTags#llm-evaluation

Tag timeline

#llm-evaluation 4 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 4
Showing 4
Page 1/1
Updated 1h ago

Entries page 1/1 · 4 total

Mon, Jun 1 2 entries
paper research 2w ago · arxiv-cs-cl

LLMチームは「What? Where? When?」をプレイできるか?間接推論と文化知識の限界に迫る研究 Can LLM Teams Play What? Where? When?

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 大規模言語モデル(LLM)が間接推論・文化的知識・協調的仮説検証を必要とするクイズゲーム「What? Where? When?」でどこまで通用するかを検証した論文。LLMの現在の限界と、チーム構成による協調推論の可能性を探っている。

EN Researchers investigate whether teams of LLMs can tackle 'What? Where? When?', a trivia game demanding indirect reasoning and cultural knowledge, probing the cooperative reasoning limits of current large language models.

fallback
paper research 2w ago · arxiv-cs-lg

QASM-Eval: OpenQASM-3 対応 LLM の訓練・評価用データセット QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 量子コンピューティング向けプログラミング言語 OpenQASM-3 を題材に、LLM の理解・生成能力を訓練・評価するためのデータセット「QASM-Eval」が提案された。NISQ 時代の課題に対応し、量子回路の枠を超えた幅広いタスクをカバーする点が特徴とされる。

EN arXiv:2605.30358v1 Announce Type: new Abstract: Quantum computing remains in the Noisy Intermediate-Scale Quantum (NISQ) era, where the performance is highly constrained to noise. Addressing the limit

fallback
Wed, May 27 1 entries
paper research 3w ago · arxiv-cs-ai

OmniToM: 明示的な信念モデリングによるLLMの心の理論ベンチマーク OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約 LLMにおける「心の理論」を明示的な信念モデリングで評価する新ベンチマーク「OmniToM」を提案した研究論文。

EN OmniToM is a new benchmark for evaluating Theory of Mind in LLMs, moving beyond end-to-end tasks by requiring explicit belief modeling across knowledge, intentions, and emotions.

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling og fallback
Wed, Feb 4 1 entries
blog local-llm 4mo ago · huggingface-blog

Community Evals:ブラックボックスのリーダーボードより、コミュニティの評価を信頼する時代へ Community Evals: Because we're done trusting black-box leaderboards over the community

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月4日 Published Feb 4

AI要約 Hugging Faceがコミュニティ主導のLLM評価プラットフォーム「Community Evals」を発表。透明性と再現性を重視したオープンな評価エコシステムを目指す。

EN Community Evals: Because we're done trusting black-box leaderboards over the community

fallback