HomeTags#inference

Tag timeline

#inference 9 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 9
Showing 9
Page 1/1
Updated 1h ago

Entries page 1/1 · 9 total

YESTERDAY 1 entries
blog agent-fw 1d ago · aws-ml-blog

Amazon SageMaker AI 非同期推論がインラインリクエストペイロードをサポート Amazon SageMaker AI Async Inference now supports inline request payloads

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Agent Frameworks Medium priority · technical post · Agent Frameworks 公開 6月18日 Published Jun 18

AI要約 Amazon SageMaker AI の非同期推論が InvokeEndpointAsync API のリクエストボディへ直接ペイロードを送信できるインライン形式に対応。S3 への事前アップロードが不要となり、ワークフローが簡素化される。

EN Amazon SageMaker AI Async Inference now supports inline payloads in the InvokeEndpointAsync API request body, removing the requirement to pre-upload inference data to Amazon S3 before each call.

fallback
Wed, Jun 3 1 entries
🔥 HOT blog tech-news 2w ago · nvidia-blog

NVIDIAとMicrosoftがエージェントAI展開向け統合スタックで提携、Windowsデバイスからクラウドまで NVIDIA Partners With Microsoft on Unified Stack for Agentic AI Deployment, From Windows Devices to Cloud to Local

重要度 High High priority 重要度 High · 技術記事 · Industry & Policy High priority · technical post · Industry & Policy 公開 6月3日 Published Jun 3

AI要約 NVIDIAとMicrosoftは、エージェントAIをWindowsデバイス・ローカル環境・クラウドにわたって一貫して展開するための統合スタックを共同で構築すると発表した。高速ハードウェア、セキュアなランタイム、応答性の高いデータ層を組み合わせ、長時間稼働するAIエージェントの実用化を目指す。

EN The agentic AI moment has arrived, but delivering on its promise requires more than good models. It also takes fast hardware, secure runtimes, a responsive data layer and models tuned for long-running

fallback
Tue, Jun 2 2 entries
🔥 HOT release local-llm 2w ago · ollama-releases

Ollama v0.30.0リリース――llama.cpp直接サポートとGGUF互換性を実現 v0.30.0-rc32: llama-server followups (#16353)

重要度 High High priority 重要度 High · 公式リリース · Local LLM / Open Models High priority · official release · Local LLM / Open Models 公開 6月2日 Published Jun 2

AI要約 OllamaがバージョンのV0.30.0をリリースし、アーキテクチャをGGML上のラッパーからllama.cppの直接サポートへと刷新。GGUFファイル形式との互換性を確保し、Apple SiliconではMLXによる高速化も導入された。

EN llama-server followups Misc fixes for #16031 Add back dropped ROCm build flag for multi-GPU support on windows Fix amdhip64_*.dll version detection for "latest" selection Fix embeddings API for consis

v0.30.0-rc32: llama-server followups (#16353) media fallback
blog local-llm 2w ago · zenn-llm

ローカルLLMの主役はメモリだった ― RTX Spark(128GB)とDGX Stationを推論の物理から読む A technical deep-dive into NVIDIA's RTX Spark (128 GB unified memory) and DGX Station anno…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 6月2日 Published Jun 2

AI要約 NVIDIA GTC Taipei 2026の基調講演で発表されたノートPC向けSoC「RTX Spark」と据え置き型「DGX Station」を題材に、ローカルLLM推論においてGPUコア数よりもメモリ帯域幅と容量が性能を左右する理由を物理的な観点から解説した技術記事。

EN A technical deep-dive into NVIDIA's RTX Spark (128 GB unified memory) and DGX Station announced at GTC Taipei 2026, arguing that memory bandwidth and capacity—not raw compute—are the true bottleneck for local LLM inference.

fallback
Tue, May 26 2 entries
blog local-llm 3w ago · zenn-llm

ik_llama.cpp を Windows でビルドして動かしてみる A practical guide to building ik_llama.cpp on Windows from source, covering a fork of llam…

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月26日 Published May 26

AI要約 ローカルLLM実行エンジン ik_llama.cpp を Windows 向けに自力ビルドする手順を解説。通常の llama.cpp より約3割高速とされる。

EN A practical guide to building ik_llama.cpp on Windows from source, covering a fork of llama.cpp reported to run local LLMs roughly 30% faster than the upstream project.

fallback
blog local-llm 3w ago · qiita-llm

ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 5月26日 Published May 26

AI要約 ローカル環境でLLMを動かす際の量子化手法とメモリ最適化の選択肢を整理し、リソース制約とモデル精度のトレードオフを解説した実践的記事。

EN A practical Qiita article exploring quantization techniques and memory optimization strategies for running LLMs locally, examining the tradeoffs between resource constraints and model quality.

ローカルLLM実行の実践:量子化とメモリ最適化のトレードオフを学ぶ og fallback
Thu, May 21 1 entries
release agent-fw 4w ago · langchain-releases

LangChain の langchain-fireworks パッケージ バージョン 1.4.0 リリース langchain-fireworks==1.4.0

重要度 Medium Medium priority 重要度 Medium · 公式リリース · Agent Frameworks Medium priority · official release · Agent Frameworks 公開 5月21日 Published May 21

AI要約 LangChain エコシステム向けの Fireworks AI 統合パッケージ「langchain-fireworks」がバージョン 1.4.0 にアップデートされた。本リリースは通常のメンテナンス更新と見られ、Fireworks AI の高速推論サービスを LangChain から利用するための連携機能が改善されている。

EN Changes since langchain-fireworks==1.3.1 release(fireworks): 1.4.0 ( #37582 ) feat(fireworks): migrate to fireworks-ai 1.x SDK ( #37581 ) chore(model-profiles): refresh model profile data ( #37574 ) c

langchain-fireworks==1.4.0 media fallback
Tue, May 19 2 entries
blog gemini 4w ago · google-developers

LiteRT-LMでオンデバイスGenAIを超高速化 Blazing fast on-device GenAI with LiteRT-LM

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 5月19日 Published May 19

AI要約 Google AI EdgeのLiteRT-LMが、モバイル・エッジ環境でGemma 4を高度に最適化して実行するための本番対応インフラを提供。

EN Google AI Edge’s LiteRT-LM provides a production-proven, highly optimized infrastructure for running Gemma 4 across cross-platform mobile and edge environments. It actively unlocks the model's native

Blazing fast on-device GenAI with LiteRT-LM og fallback
🔥 HOT blog tech-news 4w ago · nvidia-blog

NVIDIAのジェンセン・フアンCEO、Dell Technologies Worldで語る:「需要は放物線を描いて急増している」 NVIDIA CEO Jensen Huang at Dell Technologies World: ‘Demand Is Going Parabolic, Utterly Parabolic’

重要度 High High priority 重要度 High · 技術記事 · Industry & Policy High priority · technical post · Industry & Policy 公開 5月19日 Published May 19

AI要約 フアンCEOがDell Technologies Worldに登壇し、エージェントAI推論コストの大幅削減やNVIDIA Vera Rubinの優位性を強調。AIへの需要が爆発的に拡大していると訴えた。

EN Agentic AI inference at one-tenth the cost per token with NVIDIA Vera Rubin NVL72. Agent sandboxes run 50% faster on NVIDIA Vera than traditional CPUs — while enterprise data queries are up to 3x fast

NVIDIA CEO Jensen Huang at Dell Technologies World: ‘Demand Is Going Parabolic, Utterly Parabolic’ og fallback