HomeTags#benchmark

#benchmark page 1/1 · 7 total

TODAY 5 entries
NEW paper research 5h ago · arxiv-cs-cl

Apple Silicon上でポーランド語LLM「Bielik 11B」を対象に、異なるモデルファミリー間での投機的デコーディングを評価した… Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

AI要約 Apple Silicon上でポーランド語LLM「Bielik 11B」を対象に、異なるモデルファミリー間での投機的デコーディングを評価した論文。UAG(Universal Assisted Generation)を拡張したMLX-LMを用い、クロスファミリーのドラフトモデル活用による推論高速化を実証的に検証している。

EN Empirical study evaluating cross-family speculative decoding for the Polish LLM Bielik 11B on Apple Silicon, using a UAG-extended MLX-LM to enable draft models from different model families for accelerated inference.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-cl

中国語のマルチモーダル皮肉検出向けの説明可能かつ細粒度ベンチマークCFMSを提案する論文 CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

AI要約 中国語のマルチモーダル皮肉検出向けの説明可能かつ細粒度ベンチマークCFMSを提案する論文。画像とテキストを用いた皮肉検出タスクにおいて、検出結果だけでなく根拠となる説明や細かな分類を評価できるデータセットを構築した。

EN This paper proposes CFMS, an explainable and fine-grained benchmark for Chinese multimodal sarcasm detection. It provides image-text data that evaluates not only sarcasm classification but also rationales and fine-grained categorization.

arxiv.org
fallback
NEW paper research 5h ago · arxiv-cs-ai

KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

AI要約 KWBenchは、知識労働においてLLMが明示的な指示なしに問題を自発的に認識できるかを測定する新しいベンチマーク。実世界のタスクに潜む課題をモデルが気付けるかを評価し、従来の指示追従型評価を補完する。

EN KWBench is a new benchmark measuring whether LLMs can spontaneously recognize problems in knowledge work tasks without explicit prompting, complementing traditional instruction-following evaluations.

arxiv.org
fallback
Fri, Apr 17 1 entries
Mon, Apr 13 1 entries