HomeLocal LLM / Open ModelsiPhoneでローカルLLM、結局どのランタイムが速い? MLX / llama.cpp / LiteRT-LM / CoreML を実機ベンチした
Local LLM / Open Models ⚠ 古い情報の可能性

iPhoneでローカルLLM、結局どのランタイムが速い? MLX / llama.cpp / LiteRT-LM / CoreML を実機ベンチした A hands-on benchmark comparing four on-device LLM runtimes—MLX, llama.cpp, LiteRT-LM, and …

元記事を読む 古い情報の可能性
AI 3 行サマリ

iPhone実機でMLX・llama.cpp・LiteRT-LM・CoreMLの4ランタイムをベンチマークし、ローカルLLMの推論速度を比較検証した記事。

English summary
  • A hands-on benchmark comparing four on-device LLM runtimes—MLX, llama.cpp, LiteRT-LM, and CoreML—running on a physical iPhone to determine which delivers the fastest inference.

iPhoneでローカルLLMを動かす際、MLX・llama.cpp・LiteRT-LM・CoreMLという複数のランタイム選択肢が存在するが、横断的な比較ベンチマークはほとんど公開されていなかった。本記事はその空白を埋めるべく、実機を用いて各ランタイムの推論速度を計測・比較したものと推察される。

Appleが積極的に推進するMLXはローカルLLM分野への本格参入を示しており、他の選択肢と比べてどの程度のアドバンテージがあるかが焦点の一つとなっている。具体的なスコアや使用モデル・テスト条件の詳細は元記事を参照されたい。

Running large language models locally on an iPhone has become increasingly feasible, but developers face a fragmented landscape of runtimes: Apple's MLX, the cross-platform llama.cpp, Google's LiteRT-LM, and Apple's own CoreML pipeline. Until now, side-by-side inference-speed comparisons on real hardware have been scarce, making runtime selection largely guesswork.

This article appears to address that gap by benchmarking all four runtimes on a physical iPhone, with Apple's MLX—an initiative signaling Apple's serious push into the local-LLM space—being a key contender. The specific models tested, token-per-second figures, and test conditions are detailed in the original source and should be verified there, as results can vary significantly by model size and device generation.

  • SourceQiita LLM tagT2
  • Source Avg ★ 1.9
  • Typeブログ
  • Importance ★ 通常 (top 89% in Local LLM / Open Models)
  • Half-life 📘 中期 (チュートリアル)
  • LangJA
  • Collected2026/05/28 13:00

本ページの本文・要約は AI による自動生成です。正確性は元記事 (qiita.com) をご確認ください。

🏠 Local LLM / Open Models の他の記事 もっと見る →

URL をコピーしました