本地跑大模型：Apple Silicon 上的 LLM 实践指南

系列本地模型实践 → 第 6 篇 / 共 6 篇

为什么要本地跑大模型？

三个字：可控性。

云端 API 很方便，但你永远在别人的跑道上飞行。价格会变、API 会停、数据会被收集。本地部署意味着：

隐私：敏感数据不出设备
成本：一次投入，无限推理
延迟：没有网络往返，体感即时
自由：想跑什么模型就跑什么，想改什么参数就改什么

但代价是：你需要一台够格的机器，和一些折腾的耐心。

硬件：统一内存是关键

Apple Silicon 的秘密武器不是 CPU 有多快，而是统一内存架构（UMA）。

传统 PC 上，GPU 有自己的显存（VRAM），模型大小受限于显存容量。一块 24GB 显存的 RTX 4090 能跑的模型就那么大。

但 Apple Silicon 的 CPU、GPU、Neural Engine 共享同一块内存。一台 192GB 的 Mac Studio，理论上可以把整个 70B 模型塞进去，而且 GPU 可以直接访问——不需要显存搬运。

配置	统一内存	可跑模型规模	推荐场景
MacBook Air M2	16-24GB	7B-13B (4bit)	轻量实验
Mac Mini M4 Pro	24-48GB	13B-30B (4bit)	日常开发
Mac Studio M2 Ultra	128-192GB	70B-235B (4bit)	生产级推理

经验法则：模型参数量 × 0.5 ≈ 4bit 量化后的内存需求（GB）。70B 模型约需 35GB。

软件栈：MLX 生态

Apple 开源的 MLX 框架是 Apple Silicon 上跑模型的最佳选择。它：

原生支持 Metal GPU 加速
延迟评估 + 统一内存，效率极高
社区活跃，主流模型都有 MLX 格式

模型获取

Hugging Face 上搜 mlx 关键词即可找到转换好的模型：

# 用 huggingface-cli 下载
pip install huggingface-hub
huggingface-cli download mlx-community/Qwen2.5-72B-Instruct-4bit

推理服务

推荐用 omlx（我自己开发的工具），它提供：

OpenAI 兼容 API（/v1/chat/completions）
连续批处理（多请求并行）
SSD 缓存（快速模型切换）
macOS 菜单栏管理

# 启动服务
omlx serve --port 8079

# 测试推理
curl http://localhost:8079/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mlx-community/Qwen2.5-72B-Instruct-4bit",
    "messages": [{"role": "user", "content": "你好"}],
    "max_tokens": 100
  }'

性能调优

量化选择

量化级别	内存占用	推理质量	速度
fp16	100%	最佳	基线
8bit	~50%	接近无损	略快
4bit	~25%	轻微下降	最快
3bit	~19%	明显下降	更快

我的建议：日常使用选 4bit，质量和效率的最佳平衡点。只有在内存实在不够时才考虑 3bit。

上下文长度

长上下文是内存杀手。一个 70B 4bit 模型本体约 35GB，但 32K 上下文的 KV Cache 可能再吃 10-15GB。

实用策略：

限制 max_tokens 在 3000 以内（除非必要）
用 sliding window attention 的模型（如 Mistral）
对话类任务用较短上下文，分析类任务给充足上下文

模型推荐（2026 年 3 月）

经过半年的密集测试，这是我的本地模型推荐：

综合推理

Qwen3-235B 4bit — 8.5/10，媲美 Claude Sonnet 的推理能力。需要 128GB+ 内存，但一旦跑起来，质量惊人。

日常对话

Qwen2.5-72B-Instruct 4bit — 中文理解和指令跟随都很出色，35GB 内存即可。

轻量快速

Llama-3.1-8B-Instruct 4bit — 4GB 内存，推理速度飞快，适合嵌入到工作流中做预处理。

避坑

GLM-4.7-Flash：长结构化输出容易出现重复 token，不推荐用于需要精确格式的场景
超大模型 3bit 量化：质量下降太明显，不如用小一号模型的 4bit

写在最后

本地大模型不是云端的替代品——它是补充。

有些任务需要最强的推理能力，那就用 Claude 或 GPT。但有些任务——隐私敏感的、需要频繁调用的、想要深度定制的——本地模型才是正确答案。

在自己的星球上，拥有自己的 AI。这大概是这个时代最酷的事之一。

这篇指南基于我在 Mac Studio M2 Ultra (192GB) 上半年多的真实使用经验。如果你有具体的配置问题，欢迎通过 GitHub 联系我。