#multilingual — TECH Dashboard

Entries page 1/1 · 6 total

Tue, Jun 16 1 entries

NEW blog copilot 2w ago ·

github-blog-ai

多言語AI構築を加速する新しいオープンデータセットをGitHubが公開 Accelerating researchers and developers building multilingual AI with a new open dataset

重要度 Medium Medium priority 重要度 Medium · 技術記事 · GitHub Copilot Medium priority · technical post · GitHub Copilot 公開 6月16日 Published Jun 16

AI要約 GitHubがCC0-1.0ライセンスのリポジトリレベルのオープンデータセットを公開した。README・Issue・PRにわたる多言語の開発者コンテンツを含み、研究者や開発者が多言語AIモデルの学習やNLP研究に活用できる。

EN GitHub released a new CC0-1.0 licensed repository-level dataset of multilingual developer content from READMEs, issues, and pull requests, helping researchers and developers train multilingual AI models.

#github #open-dataset #multilingual +7

github.blog →

fallback

Sun, May 31 1 entries

blog claude 4w ago ·

qiita-claude

「英語で使えば安い」は本当か？ Claude Opus 4.8 のトークン消費を3言語で比較検証 An experiment measuring Claude Opus 4.8 token consumption across English, Japanese, and Ch…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Claude / Claude Code Medium priority · technical post · Claude / Claude Code 公開 5月31日 Published May 31

AI要約同じ情報量の要約を日本語・英語・中国語で生成し、Claude Opus 4.8 のトークン消費を比較した実験。英語が最も少なく、日本語は約1.23倍、中国語は約1.29倍の出力トークンを消費することが確認された。

EN An experiment measuring Claude Opus 4.8 token consumption across English, Japanese, and Chinese found English outputs to be the most token-efficient, with Japanese using ~1.23× and Chinese ~1.29× more output tokens for equivalent information.

#claude #qiita #tokenization +3

qiita.com →

fallback

Thu, May 28 1 entries

paper research 4w ago ·

arxiv-cs-ai

Soro: タジク語向け軽量基盤モデルとチャットボット Soro: A Lightweight Foundation Model and Chatbot for Tajik

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月28日 Published May 28

AI要約タジク語に特化した会話型LLMファミリー「Soro」を発表。計算資源やデータが乏しい環境でも実用展開できる軽量設計を採用し、これまで支援の少なかった低リソース言語のNLP普及と実用化を後押しする研究成果である。

EN Researchers introduce Soro, a family of Tajik-specialized conversational LLMs built for real-world deployment under tight compute constraints, advancing practical NLP access for an underserved low-resource language.

#arxiv #paper #llm +9

arxiv.org →

og fallback

Wed, May 27 1 entries

paper research 1mo ago ·

arxiv-cs-cl

CroCo: 自己生成文を用いたクロスリンガル対照的選好チューニング CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月27日 Published May 27

AI要約大規模言語モデルの自己生成応答に報酬スコアで制御した対照性を持たせ、言語をまたいで選好学習する手法CroCoを提案。追加の人手アノテーションなしで多言語アライメントを改善し、低資源言語を含むタスクの精度向上が期待できる。

EN CroCo tunes LLMs via cross-lingual contrastive preference learning on self-generated responses, using reward scores to control contrastiveness and boost multilingual alignment without extra human annotation.

#arxiv #paper #multilingual +9

arxiv.org →

og fallback

Tue, May 26 1 entries

paper research 1mo ago ·

arxiv-cs-cl

Raon-Speech テクニカルレポート Raon-Speech Technical Report

重要度 Medium Medium priority 重要度 Medium · 論文/研究 · Papers / Benchmarks Medium priority · paper/research · Papers / Benchmarks 公開 5月26日 Published May 26

AI要約英語・韓国語に対応した90億パラメータの音声言語モデル「Raon-Speech」の技術報告。音声理解・応答・生成で高性能を達成。

EN Raon-Speech is a top-performing 9B-parameter speech language model supporting English and Korean speech understanding, answering, and generation tasks.

#arxiv #paper #speech-language-model +4

arxiv.org →

og fallback

Fri, May 15 1 entries

NEW blog local-llm 1mo ago ·

huggingface-blog

IBM Granite Embedding Multilingual R2、32K対応の小型多言語埋め込み Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月15日 Published May 15

AI要約 IBMがApache 2.0で公開した「Granite Embedding Multilingual R2」は、100M未満のパラメータながら32Kトークンの長文と12言語に対応し、同規模帯で最高水準の検索品質を達成した。RAG用途に有用だ。

EN IBM released Granite Embedding Multilingual R2 under Apache 2.0: a sub-100M-parameter model supporting 12 languages and 32K-token context, delivering best-in-class retrieval quality for its size, ideal for RAG.

#huggingface #open-model #ibm-granite +7

huggingface.co →

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

og fallback

#multilingual 6 total

Entries page 1/1 · 6 total

多言語AI構築を加速する新しいオープンデータセットをGitHubが公開 Accelerating researchers and developers building multilingual AI with a new open dataset

「英語で使えば安い」は本当か？ Claude Opus 4.8 のトークン消費を3言語で比較検証 An experiment measuring Claude Opus 4.8 token consumption across English, Japanese, and Ch…

Soro: タジク語向け軽量基盤モデルとチャットボット Soro: A Lightweight Foundation Model and Chatbot for Tajik

CroCo: 自己生成文を用いたクロスリンガル対照的選好チューニング CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

Raon-Speech テクニカルレポート Raon-Speech Technical Report

IBM Granite Embedding Multilingual R2、32K対応の小型多言語埋め込み Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality