HomeTags#lustre

Tag timeline

#lustre 1 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 1
Showing 1
Page 1/1
Updated 1m ago

Entries page 1/1 · 1 total

Wed, Jul 1 1 entries
NEW blog gemini 4d ago · google-cloud-blog

LLM推論のスケーリング:GKEとManaged Lustreによるマルチノード KVキャッシュオフロード Scaling LLM Inference: Multi-Node KV Cache Offloading with GKE & Managed Lustre

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 7月1日 Published Jul 1

AI要約 GKEとManaged Lustreを組み合わせ、LLM推論のKVキャッシュをマルチノードにオフロードするアーキテクチャを解説。長いコンテキスト長や高スループットの推論ワークロードを実用的な規模でスケールさせる手法を紹介している。

EN This post demonstrates how to scale LLM inference by offloading KV caches across multiple nodes using GKE and Google Cloud Managed Lustre, making it practical to serve long-context models at high throughput.

Scaling LLM Inference: Multi-Node KV Cache Offloading with GKE & Managed Lustre media fallback