Mac本地跑大模型：MLX部署实战

系列本地模型实践 → 第 1 篇 / 共 6 篇

根据《AI时代漫游指南》第 50 章「算力丰裕社会」记载：「在这个宇宙中，有三种社会：物质稀缺社会、信息稀缺社会、以及算力丰裕社会。前两种已经是历史，第三种正在发生。」

但别着急——算力丰裕的前提是，你得先把大模型跑起来。

你有没有想过，自己的电脑能不能跑大模型？

不是那种”下个 App 聊两句”的玩具级别，而是真正的、参数量以百亿计的大语言模型——就跑在你的桌面上，不联网，不花 API 费用，数据不出家门。

我最近用 Apple 的 MLX 框架，在一台 Mac 上跑起了 MiniMax-M2.5——一个 2300 亿参数的开源大模型。

本地大模型，已经从极客玩具变成了实用工具。

今天把这段经历分享出来。不需要编程基础，但你需要一台 Apple Silicon 的 Mac。

编者注：当我说”不需要编程基础”的时候，意思是你不需要写代码。但你需要会打开终端、复制粘贴命令。如果这已经超出了你的舒适区——恭喜你，这篇文章正是为了帮你走出舒适区而写的。

为什么要在本地跑大模型？

ChatGPT、Claude、DeepSeek 都很好用，为什么要折腾本地部署？

云端 AI	本地大模型
每月 $20 订阅费	一次部署，长期免费
数据上传到别人的服务器	数据不出你的电脑
断网就没了	断网照常用
别人说停就停	你的模型你做主

核心理由只有一个：主权。

你的数据、你的对话历史——这些不应该存在别人的服务器上。

当你把大模型跑在自己电脑上，你拥有的不只是一个工具，而是一个完全属于你的 AI 助手。

编者注：有人说”我又没什么秘密”。但你写的日记、你和 AI 讨论的商业计划、你让 AI 帮你改的简历——这些东西，你真的愿意让陌生人看到吗？隐私不是因为你有什么见不得人的，而是因为那是你的。

你需要什么？

关键指标只有一个：内存（统一内存）。

Apple Silicon 的 Mac 有一个独特优势：CPU 和 GPU 共享同一块内存。

这意味着——你的内存就是你的显存。

模型大小	需要的内存	推荐机型
70 亿参数	8GB	MacBook Air
140 亿参数	16GB	MacBook Pro
700 亿参数	64GB	Mac Studio
2300 亿参数	128GB+	Mac Studio Ultra

编者注：别被顶配吓退。一台入门级 MacBook Pro 就够跑小模型了。本地 AI 的门槛，比你想象的低得多。

还需要：

macOS Sonoma 14.0+
Python 3.12+
MLX 框架（Apple 官方开源）
约 120GB 硬盘空间

动手：从零到对话

第一步：安装 MLX

打开终端，三行命令搞定：

创建 Python 虚拟环境 → 激活 → 安装 MLX。

整个过程不到 5 分钟。

第二步：下载模型

这是最考验耐心的一步。

MiniMax-M2.5 的量化版本大约 120GB，下载速度取决于网络。我用了大约 2 小时。

为什么选 MiniMax-M2.5？

模型	总参数	激活参数	特点
Llama 3.1	700 亿	700 亿	社区大
Qwen 2.5	720 亿	720 亿	中文强
MiniMax-M2.5	2300 亿	100 亿	性价比极高

MiniMax-M2.5 用了 MoE（混合专家）架构：虽然总参数有 2300 亿，但每次推理只激活 100 亿参数。

编者注：MoE 就像一个大公司——虽然有 2300 个员工，但每次开会只叫 100 个人。所以你不需要租一个能坐 2300 人的会议室，100 人的就够了。

第三步：启动服务

一行命令启动 MLX 服务。

第一次启动会比较慢——需要把模型加载到内存里，大约 3-5 分钟。

启动成功后——恭喜，你现在拥有了一个私有的 AI 服务器。

第四步：开始对话

和 ChatGPT 的调用方式几乎一模一样。

你现有的任何 AI 工具——聊天界面、自动化脚本——都可以无缝切换到本地模型。只需要改两行配置。

编者注：MLX 的 API 兼容性做得非常好。Apple 虽然在 AI 领域动作慢，但 MLX 这个框架确实是给开发者的一份大礼。

踩坑实录

坑 1：启动巨慢

第一次启动用了 HuggingFace 的缓存路径，MLX 会逐个验证模型文件，光验证就花了 20 分钟。

解决：直接用本地路径，秒启。

坑 2：局域网连不上

想从另一台电脑访问，一直报错。排查半天，发现是 HTTP 代理把局域网请求也代理了。

解决：设置代理例外，排除局域网地址。

坑 3：跑着跑着就挂了

连续运行 19 小时后，服务悄悄死掉了。没有报错，没有日志。

这是 MLX 的已知问题。

解决：写个看门狗脚本，每 5 分钟检查一次，挂了自动重启。

编者注：让本地 AI 教你怎么让它自动重启——这大概是 AI 时代最有哲学意味的事情了。

实际体验

跑了几天后，我的结论：

✅ 适合做的事： 日常对话、文本摘要、简单代码、翻译、隐私敏感处理

❌ 不太行的事： 长文写作、复杂推理、最新知识、超长对话

核心结论：本地模型是补充，不是替代。

它最大的价值不是”比 ChatGPT 更强”，而是”在 ChatGPT 不方便用的时候，给你一个选择”——断网的时候、处理敏感数据的时候、不想付订阅费的时候。

成本算一算

项目	费用
硬件	你已有的 Mac
电费	一杯咖啡的钱
软件	¥0（全部开源）
API 费用	¥0（永久免费）

编者注：如果你像我一样，买 Mac 的理由本来就包括”跑本地模型”——那这篇文章就是在帮你合理化一笔已经花出去的钱。心理学管这叫”购后合理化”，我管这叫”理性投资”。

给普通人的建议

想体验？ 16GB Mac + 7B 模型，1 小时搞定。

想认真用？ 64GB + 70B 模型 + 自动启动脚本。

想折腾到极致？ 256GB + 局域网共享 + 自动化工作流。

不管哪种，核心就一句：先跑起来，再慢慢折腾。

编者注：这也是《AI时代漫游指南》第 24 章的核心观点：「习惯的敌人不是懒，而是启动成本。」先把大模型跑起来，哪怕只是对话两句——降低启动成本，后面的事情自然会发生。

写在最后

半年前，本地跑大模型还是极客的专属领地。你需要 NVIDIA 显卡、CUDA 驱动、Docker 容器……

MLX 改变了这个局面。

Apple 做了一件很聪明的事：把大模型推理和统一内存深度绑定。

你的内存就是你的显存。

这就是为什么我说算力丰裕时代正在到来——不是因为云端 API 变便宜了，而是因为你桌上的电脑，已经有能力成为一个 AI 服务器了。

「2025 年的选择决定 2035 年的位置。」——《AI时代漫游指南》第 50 章

不是因为你必须在本地跑大模型，而是因为你应该知道——你可以。

🔗 相关资源

MLX 框架（GitHub）— Apple 官方开源
MLX-LM — 一键跑本地大模型
MiniMax-M2.5（HuggingFace）— MIT 开源，免费商用

如果这篇文章帮到你了，欢迎分享给需要的朋友。我们下期见。

Don’t Panic.

作者：漫游君 公众号：AI时代漫游指南