跳到正文
本地跑大模型:Apple Silicon 上的 LLM 实践指南
0%
实战指南 · · 938 字 · 漫游君 · 进阶 · 🟡 中级 · 本地模型实践 6/6 ·

本地跑大模型:Apple Silicon 上的 LLM 实践指南

为什么要本地跑大模型?

三个字:可控性

云端 API 很方便,但你永远在别人的跑道上飞行。价格会变、API 会停、数据会被收集。本地部署意味着:

  • 隐私:敏感数据不出设备
  • 成本:一次投入,无限推理
  • 延迟:没有网络往返,体感即时
  • 自由:想跑什么模型就跑什么,想改什么参数就改什么

但代价是:你需要一台够格的机器,和一些折腾的耐心。

硬件:统一内存是关键

Apple Silicon 的秘密武器不是 CPU 有多快,而是统一内存架构(UMA)

传统 PC 上,GPU 有自己的显存(VRAM),模型大小受限于显存容量。一块 24GB 显存的 RTX 4090 能跑的模型就那么大。

但 Apple Silicon 的 CPU、GPU、Neural Engine 共享同一块内存。一台 192GB 的 Mac Studio,理论上可以把整个 70B 模型塞进去,而且 GPU 可以直接访问——不需要显存搬运。

配置统一内存可跑模型规模推荐场景
MacBook Air M216-24GB7B-13B (4bit)轻量实验
Mac Mini M4 Pro24-48GB13B-30B (4bit)日常开发
Mac Studio M2 Ultra128-192GB70B-235B (4bit)生产级推理

经验法则:模型参数量 × 0.5 ≈ 4bit 量化后的内存需求(GB)。70B 模型约需 35GB。

软件栈:MLX 生态

Apple 开源的 MLX 框架是 Apple Silicon 上跑模型的最佳选择。它:

  • 原生支持 Metal GPU 加速
  • 延迟评估 + 统一内存,效率极高
  • 社区活跃,主流模型都有 MLX 格式

模型获取

Hugging Face 上搜 mlx 关键词即可找到转换好的模型:

# 用 huggingface-cli 下载
pip install huggingface-hub
huggingface-cli download mlx-community/Qwen2.5-72B-Instruct-4bit

推理服务

推荐用 omlx(我自己开发的工具),它提供:

  • OpenAI 兼容 API(/v1/chat/completions
  • 连续批处理(多请求并行)
  • SSD 缓存(快速模型切换)
  • macOS 菜单栏管理
# 启动服务
omlx serve --port 8079

# 测试推理
curl http://localhost:8079/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mlx-community/Qwen2.5-72B-Instruct-4bit",
    "messages": [{"role": "user", "content": "你好"}],
    "max_tokens": 100
  }'

性能调优

量化选择

量化级别内存占用推理质量速度
fp16100%最佳基线
8bit~50%接近无损略快
4bit~25%轻微下降最快
3bit~19%明显下降更快

我的建议:日常使用选 4bit,质量和效率的最佳平衡点。只有在内存实在不够时才考虑 3bit。

上下文长度

长上下文是内存杀手。一个 70B 4bit 模型本体约 35GB,但 32K 上下文的 KV Cache 可能再吃 10-15GB。

实用策略

  • 限制 max_tokens 在 3000 以内(除非必要)
  • 用 sliding window attention 的模型(如 Mistral)
  • 对话类任务用较短上下文,分析类任务给充足上下文

模型推荐(2026 年 3 月)

经过半年的密集测试,这是我的本地模型推荐:

综合推理

Qwen3-235B 4bit — 8.5/10,媲美 Claude Sonnet 的推理能力。需要 128GB+ 内存,但一旦跑起来,质量惊人。

日常对话

Qwen2.5-72B-Instruct 4bit — 中文理解和指令跟随都很出色,35GB 内存即可。

轻量快速

Llama-3.1-8B-Instruct 4bit — 4GB 内存,推理速度飞快,适合嵌入到工作流中做预处理。

避坑

  • GLM-4.7-Flash:长结构化输出容易出现重复 token,不推荐用于需要精确格式的场景
  • 超大模型 3bit 量化:质量下降太明显,不如用小一号模型的 4bit

写在最后

本地大模型不是云端的替代品——它是补充

有些任务需要最强的推理能力,那就用 Claude 或 GPT。但有些任务——隐私敏感的、需要频繁调用的、想要深度定制的——本地模型才是正确答案。

在自己的星球上,拥有自己的 AI。这大概是这个时代最酷的事之一。


这篇指南基于我在 Mac Studio M2 Ultra (192GB) 上半年多的真实使用经验。如果你有具体的配置问题,欢迎通过 GitHub 联系我。

这篇文章对你有帮助吗?

分享这篇文章

X / Twitter

感谢阅读这篇文章

约花了 9 分钟。如果对你有帮助,欢迎订阅 RSS 或收藏待读。

讨论

这篇文章让你感觉

评分

喜欢这篇文章?

订阅 RSS,第一时间收到新文章推送

订阅 RSS

私人笔记

仅保存在本地浏览器

讨论

评论加载中...