HomeTags#model-evaluation

Tag timeline

#model-evaluation 3 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 3
Showing 3
Page 1/1
Updated 1h ago

Entries page 1/1 · 3 total

Mon, Jun 1 2 entries
blog claude 2w ago · zenn-claude

Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能 JA Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 6月1日 Published Jun 1

AI要約 世の中にはたくさんの LLM が存在します。 全てを数えるのは困難ですが、例えば、Artificial Analysis https://artificialanalysis.ai/ で情報が提供されているモデルは本記事執筆時点で 500

fallback
paper research 2w ago · arxiv-cs-lg

ブラックボックス LLM 蒸留における有界行動不可識別性 Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約 本論文は、ブラックボックス LLM 蒸留の評価を「出力マッチング」から「行動の不可識別性」へと再定義する新たな枠組みを提案する。学生モデルが教師モデルと区別できない範囲を理論的に定量化し、より厳密な蒸留評価を目指す研究だ。

EN arXiv:2605.30448v1 Announce Type: new Abstract: Black-box LLM distillation is usually evaluated as an output-matching problem: a student is considered successful when its responses are semantically si

fallback
Wed, Feb 4 1 entries
blog local-llm 4mo ago · huggingface-blog

Community Evals:ブラックボックスのリーダーボードより、コミュニティの評価を信頼する時代へ Community Evals: Because we're done trusting black-box leaderboards over the community

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月4日 Published Feb 4

AI要約 Hugging Faceがコミュニティ主導のLLM評価プラットフォーム「Community Evals」を発表。透明性と再現性を重視したオープンな評価エコシステムを目指す。

EN Community Evals: Because we're done trusting black-box leaderboards over the community

fallback