本地跑大模型:Apple Silicon 上的 LLM 实践指南
- 1
- 2
- 3
- 4
- 5
- 6 本地跑大模型:Apple Silicon 上的 LLM 实践指南
为什么要本地跑大模型?
三个字:可控性。
云端 API 很方便,但你永远在别人的跑道上飞行。价格会变、API 会停、数据会被收集。本地部署意味着:
- 隐私:敏感数据不出设备
- 成本:一次投入,无限推理
- 延迟:没有网络往返,体感即时
- 自由:想跑什么模型就跑什么,想改什么参数就改什么
但代价是:你需要一台够格的机器,和一些折腾的耐心。
硬件:统一内存是关键
Apple Silicon 的秘密武器不是 CPU 有多快,而是统一内存架构(UMA)。
传统 PC 上,GPU 有自己的显存(VRAM),模型大小受限于显存容量。一块 24GB 显存的 RTX 4090 能跑的模型就那么大。
但 Apple Silicon 的 CPU、GPU、Neural Engine 共享同一块内存。一台 192GB 的 Mac Studio,理论上可以把整个 70B 模型塞进去,而且 GPU 可以直接访问——不需要显存搬运。
| 配置 | 统一内存 | 可跑模型规模 | 推荐场景 |
|---|---|---|---|
| MacBook Air M2 | 16-24GB | 7B-13B (4bit) | 轻量实验 |
| Mac Mini M4 Pro | 24-48GB | 13B-30B (4bit) | 日常开发 |
| Mac Studio M2 Ultra | 128-192GB | 70B-235B (4bit) | 生产级推理 |
经验法则:模型参数量 × 0.5 ≈ 4bit 量化后的内存需求(GB)。70B 模型约需 35GB。
软件栈:MLX 生态
Apple 开源的 MLX 框架是 Apple Silicon 上跑模型的最佳选择。它:
- 原生支持 Metal GPU 加速
- 延迟评估 + 统一内存,效率极高
- 社区活跃,主流模型都有 MLX 格式
模型获取
Hugging Face 上搜 mlx 关键词即可找到转换好的模型:
# 用 huggingface-cli 下载
pip install huggingface-hub
huggingface-cli download mlx-community/Qwen2.5-72B-Instruct-4bit
推理服务
推荐用 omlx(我自己开发的工具),它提供:
- OpenAI 兼容 API(
/v1/chat/completions) - 连续批处理(多请求并行)
- SSD 缓存(快速模型切换)
- macOS 菜单栏管理
# 启动服务
omlx serve --port 8079
# 测试推理
curl http://localhost:8079/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mlx-community/Qwen2.5-72B-Instruct-4bit",
"messages": [{"role": "user", "content": "你好"}],
"max_tokens": 100
}'
性能调优
量化选择
| 量化级别 | 内存占用 | 推理质量 | 速度 |
|---|---|---|---|
| fp16 | 100% | 最佳 | 基线 |
| 8bit | ~50% | 接近无损 | 略快 |
| 4bit | ~25% | 轻微下降 | 最快 |
| 3bit | ~19% | 明显下降 | 更快 |
我的建议:日常使用选 4bit,质量和效率的最佳平衡点。只有在内存实在不够时才考虑 3bit。
上下文长度
长上下文是内存杀手。一个 70B 4bit 模型本体约 35GB,但 32K 上下文的 KV Cache 可能再吃 10-15GB。
实用策略:
- 限制
max_tokens在 3000 以内(除非必要) - 用 sliding window attention 的模型(如 Mistral)
- 对话类任务用较短上下文,分析类任务给充足上下文
模型推荐(2026 年 3 月)
经过半年的密集测试,这是我的本地模型推荐:
综合推理
Qwen3-235B 4bit — 8.5/10,媲美 Claude Sonnet 的推理能力。需要 128GB+ 内存,但一旦跑起来,质量惊人。
日常对话
Qwen2.5-72B-Instruct 4bit — 中文理解和指令跟随都很出色,35GB 内存即可。
轻量快速
Llama-3.1-8B-Instruct 4bit — 4GB 内存,推理速度飞快,适合嵌入到工作流中做预处理。
避坑
- GLM-4.7-Flash:长结构化输出容易出现重复 token,不推荐用于需要精确格式的场景
- 超大模型 3bit 量化:质量下降太明显,不如用小一号模型的 4bit
写在最后
本地大模型不是云端的替代品——它是补充。
有些任务需要最强的推理能力,那就用 Claude 或 GPT。但有些任务——隐私敏感的、需要频繁调用的、想要深度定制的——本地模型才是正确答案。
在自己的星球上,拥有自己的 AI。这大概是这个时代最酷的事之一。
这篇指南基于我在 Mac Studio M2 Ultra (192GB) 上半年多的真实使用经验。如果你有具体的配置问题,欢迎通过 GitHub 联系我。
相关文章
这篇文章对你有帮助吗?
分享这篇文章
引用此文
讨论
这篇文章让你感觉
喜欢这篇文章?
订阅 RSS,第一时间收到新文章推送
私人笔记
仅保存在本地浏览器讨论
评论加载中...