Mac本地跑大模型:MLX部署实战
- 1 Mac本地跑大模型:MLX部署实战
- 2
- 3
- 4
- 5
- 6
根据《AI时代漫游指南》第 50 章「算力丰裕社会」记载:「在这个宇宙中,有三种社会:物质稀缺社会、信息稀缺社会、以及算力丰裕社会。前两种已经是历史,第三种正在发生。」
但别着急——算力丰裕的前提是,你得先把大模型跑起来。
你有没有想过,自己的电脑能不能跑大模型?
不是那种”下个 App 聊两句”的玩具级别,而是真正的、参数量以百亿计的大语言模型——就跑在你的桌面上,不联网,不花 API 费用,数据不出家门。
我最近用 Apple 的 MLX 框架,在一台 Mac 上跑起了 MiniMax-M2.5——一个 2300 亿参数的开源大模型。
本地大模型,已经从极客玩具变成了实用工具。
今天把这段经历分享出来。不需要编程基础,但你需要一台 Apple Silicon 的 Mac。
编者注:当我说”不需要编程基础”的时候,意思是你不需要写代码。但你需要会打开终端、复制粘贴命令。如果这已经超出了你的舒适区——恭喜你,这篇文章正是为了帮你走出舒适区而写的。
为什么要在本地跑大模型?
ChatGPT、Claude、DeepSeek 都很好用,为什么要折腾本地部署?
| 云端 AI | 本地大模型 |
|---|---|
| 每月 $20 订阅费 | 一次部署,长期免费 |
| 数据上传到别人的服务器 | 数据不出你的电脑 |
| 断网就没了 | 断网照常用 |
| 别人说停就停 | 你的模型你做主 |
核心理由只有一个:主权。
你的数据、你的对话历史——这些不应该存在别人的服务器上。
当你把大模型跑在自己电脑上,你拥有的不只是一个工具,而是一个完全属于你的 AI 助手。
编者注:有人说”我又没什么秘密”。但你写的日记、你和 AI 讨论的商业计划、你让 AI 帮你改的简历——这些东西,你真的愿意让陌生人看到吗?隐私不是因为你有什么见不得人的,而是因为那是你的。
你需要什么?
关键指标只有一个:内存(统一内存)。
Apple Silicon 的 Mac 有一个独特优势:CPU 和 GPU 共享同一块内存。
这意味着——你的内存就是你的显存。
| 模型大小 | 需要的内存 | 推荐机型 |
|---|---|---|
| 70 亿参数 | 8GB | MacBook Air |
| 140 亿参数 | 16GB | MacBook Pro |
| 700 亿参数 | 64GB | Mac Studio |
| 2300 亿参数 | 128GB+ | Mac Studio Ultra |
编者注:别被顶配吓退。一台入门级 MacBook Pro 就够跑小模型了。本地 AI 的门槛,比你想象的低得多。
还需要:
- macOS Sonoma 14.0+
- Python 3.12+
- MLX 框架(Apple 官方开源)
- 约 120GB 硬盘空间
动手:从零到对话
第一步:安装 MLX
打开终端,三行命令搞定:
创建 Python 虚拟环境 → 激活 → 安装 MLX。
整个过程不到 5 分钟。
第二步:下载模型
这是最考验耐心的一步。
MiniMax-M2.5 的量化版本大约 120GB,下载速度取决于网络。我用了大约 2 小时。
为什么选 MiniMax-M2.5?
| 模型 | 总参数 | 激活参数 | 特点 |
|---|---|---|---|
| Llama 3.1 | 700 亿 | 700 亿 | 社区大 |
| Qwen 2.5 | 720 亿 | 720 亿 | 中文强 |
| MiniMax-M2.5 | 2300 亿 | 100 亿 | 性价比极高 |
MiniMax-M2.5 用了 MoE(混合专家)架构:虽然总参数有 2300 亿,但每次推理只激活 100 亿参数。
编者注:MoE 就像一个大公司——虽然有 2300 个员工,但每次开会只叫 100 个人。所以你不需要租一个能坐 2300 人的会议室,100 人的就够了。
第三步:启动服务
一行命令启动 MLX 服务。
第一次启动会比较慢——需要把模型加载到内存里,大约 3-5 分钟。
启动成功后——恭喜,你现在拥有了一个私有的 AI 服务器。
第四步:开始对话
和 ChatGPT 的调用方式几乎一模一样。
你现有的任何 AI 工具——聊天界面、自动化脚本——都可以无缝切换到本地模型。只需要改两行配置。
编者注:MLX 的 API 兼容性做得非常好。Apple 虽然在 AI 领域动作慢,但 MLX 这个框架确实是给开发者的一份大礼。
踩坑实录
坑 1:启动巨慢
第一次启动用了 HuggingFace 的缓存路径,MLX 会逐个验证模型文件,光验证就花了 20 分钟。
解决:直接用本地路径,秒启。
坑 2:局域网连不上
想从另一台电脑访问,一直报错。排查半天,发现是 HTTP 代理把局域网请求也代理了。
解决:设置代理例外,排除局域网地址。
坑 3:跑着跑着就挂了
连续运行 19 小时后,服务悄悄死掉了。没有报错,没有日志。
这是 MLX 的已知问题。
解决:写个看门狗脚本,每 5 分钟检查一次,挂了自动重启。
编者注:让本地 AI 教你怎么让它自动重启——这大概是 AI 时代最有哲学意味的事情了。
实际体验
跑了几天后,我的结论:
✅ 适合做的事: 日常对话、文本摘要、简单代码、翻译、隐私敏感处理
❌ 不太行的事: 长文写作、复杂推理、最新知识、超长对话
核心结论:本地模型是补充,不是替代。
它最大的价值不是”比 ChatGPT 更强”,而是”在 ChatGPT 不方便用的时候,给你一个选择”——断网的时候、处理敏感数据的时候、不想付订阅费的时候。
成本算一算
| 项目 | 费用 |
|---|---|
| 硬件 | 你已有的 Mac |
| 电费 | 一杯咖啡的钱 |
| 软件 | ¥0(全部开源) |
| API 费用 | ¥0(永久免费) |
编者注:如果你像我一样,买 Mac 的理由本来就包括”跑本地模型”——那这篇文章就是在帮你合理化一笔已经花出去的钱。心理学管这叫”购后合理化”,我管这叫”理性投资”。
给普通人的建议
想体验? 16GB Mac + 7B 模型,1 小时搞定。
想认真用? 64GB + 70B 模型 + 自动启动脚本。
想折腾到极致? 256GB + 局域网共享 + 自动化工作流。
不管哪种,核心就一句:先跑起来,再慢慢折腾。
编者注:这也是《AI时代漫游指南》第 24 章的核心观点:「习惯的敌人不是懒,而是启动成本。」先把大模型跑起来,哪怕只是对话两句——降低启动成本,后面的事情自然会发生。
写在最后
半年前,本地跑大模型还是极客的专属领地。你需要 NVIDIA 显卡、CUDA 驱动、Docker 容器……
MLX 改变了这个局面。
Apple 做了一件很聪明的事:把大模型推理和统一内存深度绑定。
你的内存就是你的显存。
这就是为什么我说算力丰裕时代正在到来——不是因为云端 API 变便宜了,而是因为你桌上的电脑,已经有能力成为一个 AI 服务器了。
「2025 年的选择决定 2035 年的位置。」——《AI时代漫游指南》第 50 章
不是因为你必须在本地跑大模型,而是因为你应该知道——你可以。
🔗 相关资源
- MLX 框架(GitHub)— Apple 官方开源
- MLX-LM — 一键跑本地大模型
- MiniMax-M2.5(HuggingFace)— MIT 开源,免费商用
如果这篇文章帮到你了,欢迎分享给需要的朋友。我们下期见。
Don’t Panic.
作者:漫游君 公众号:AI时代漫游指南
相关文章
这篇文章对你有帮助吗?
分享这篇文章
引用此文
讨论
系列下一篇
OpenClaw安全加固:用魔法打败魔法 →这篇文章让你感觉
喜欢这篇文章?
订阅 RSS,第一时间收到新文章推送
私人笔记
仅保存在本地浏览器讨论
评论加载中...