HomeTags#llm-inference

Tag timeline

#llm-inference 2 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 2
Showing 2
Page 1/1
Updated 1h ago

Entries page 1/1 · 2 total

Wed, Jun 3 1 entries
release local-llm 2w ago · ollama-releases

Ollama v0.30.1: llama-server の SSE ping コメントを無視するバグ修正 v0.30.1: llm: ignore llama-server SSE ping comments (#16443)

重要度 Medium Medium priority 重要度 Medium · 公式リリース · Local LLM / Open Models Medium priority · official release · Local LLM / Open Models 公開 6月3日 Published Jun 3

AI要約 Ollama v0.30.1 がリリースされ、llama.cpp b9478 で導入されたデフォルト30秒間隔の SSE ping コメントフレームを JSON として誤解析していた不具合が修正された。ストリーミング中にコロンのみの SSE コメント行をスキップするよう処理が改善されている。

EN llama.cpp b9478 added a default 30s SSE ping that emits colon-only comment frames (":\n\n") while streamed requests are idle; Ollama treated non-data SSE lines as JSON, so skip SSE comments in complet

v0.30.1: llm: ignore llama-server SSE ping comments (#16443) media fallback
Mon, May 4 1 entries
blog gemini 1mo ago · google-developers

Google TPUでLLM推論を3倍高速化、拡散型投機デコードを採用 Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 5月4日 Published May 4

AI要約 Googleは、TPU上でのLLM推論を高速化するため、拡散モデルに着想を得た投機的デコード手法を発表した。複数トークンを並列に予測・検証することで、最大3倍のスループット向上を実現したという。

EN Researchers at UCSD have successfully implemented DFlash, a block-diffusion speculative decoding method, on Google TPUs to bypass the sequential bottlenecks of traditional autoregressive drafting. By

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding og fallback