#model-evaluation — TECH Dashboard

Entries page 1/1 · 3 total

Mon, Jun 1 2 entries

blog claude 2w ago ·

zenn-claude

Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能 JA Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 6月1日 Published Jun 1

AI要約世の中にはたくさんの LLM が存在します。全てを数えるのは困難ですが、例えば、Artificial Analysis https://artificialanalysis.ai/ で情報が提供されているモデルは本記事執筆時点で 500

#claude #zenn #amazon-bedrock +4

zenn.dev →

fallback

paper research 2w ago ·

arxiv-cs-lg

ブラックボックス LLM 蒸留における有界行動不可識別性 Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 6月1日 Published Jun 1

AI要約本論文は、ブラックボックス LLM 蒸留の評価を「出力マッチング」から「行動の不可識別性」へと再定義する新たな枠組みを提案する。学生モデルが教師モデルと区別できない範囲を理論的に定量化し、より厳密な蒸留評価を目指す研究だ。

EN arXiv:2605.30448v1 Announce Type: new Abstract: Black-box LLM distillation is usually evaluated as an output-matching problem: a student is considered successful when its responses are semantically si

#arxiv #paper #llm +5

arxiv.org →

fallback

Wed, Feb 4 1 entries

blog local-llm 4mo ago ·

huggingface-blog

Community Evals：ブラックボックスのリーダーボードより、コミュニティの評価を信頼する時代へ Community Evals: Because we're done trusting black-box leaderboards over the community

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 2月4日 Published Feb 4

AI要約 Hugging Faceがコミュニティ主導のLLM評価プラットフォーム「Community Evals」を発表。透明性と再現性を重視したオープンな評価エコシステムを目指す。

EN Community Evals: Because we're done trusting black-box leaderboards over the community

#huggingface #open-model #llm-evaluation +7

huggingface.co →

fallback

#model-evaluation 3 total

Entries page 1/1 · 3 total

Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能 JA Amazon Bedrock 経由で使える LLM の日本語ベンチマーク性能

ブラックボックス LLM 蒸留における有界行動不可識別性 Bounded Behavioral Indistinguishability for Black-Box LLM Distillation

Community Evals：ブラックボックスのリーダーボードより、コミュニティの評価を信頼する時代へ Community Evals: Because we're done trusting black-box leaderboards over the community