跳到正文
Mac本地跑大模型:MLX部署实战
0%
实战指南 · · 1,877 字 · 漫游君 · 进阶 · 🟡 中级 · 本地模型实践 1/6 ·

Mac本地跑大模型:MLX部署实战

根据《AI时代漫游指南》第 50 章「算力丰裕社会」记载:「在这个宇宙中,有三种社会:物质稀缺社会、信息稀缺社会、以及算力丰裕社会。前两种已经是历史,第三种正在发生。」

但别着急——算力丰裕的前提是,你得先把大模型跑起来。


你有没有想过,自己的电脑能不能跑大模型?

不是那种”下个 App 聊两句”的玩具级别,而是真正的、参数量以百亿计的大语言模型——就跑在你的桌面上,不联网,不花 API 费用,数据不出家门。

我最近用 Apple 的 MLX 框架,在一台 Mac 上跑起了 MiniMax-M2.5——一个 2300 亿参数的开源大模型。

本地大模型,已经从极客玩具变成了实用工具。

今天把这段经历分享出来。不需要编程基础,但你需要一台 Apple Silicon 的 Mac。

编者注:当我说”不需要编程基础”的时候,意思是你不需要写代码。但你需要会打开终端、复制粘贴命令。如果这已经超出了你的舒适区——恭喜你,这篇文章正是为了帮你走出舒适区而写的。


为什么要在本地跑大模型?

ChatGPT、Claude、DeepSeek 都很好用,为什么要折腾本地部署?

云端 AI本地大模型
每月 $20 订阅费一次部署,长期免费
数据上传到别人的服务器数据不出你的电脑
断网就没了断网照常用
别人说停就停你的模型你做主

核心理由只有一个:主权。

你的数据、你的对话历史——这些不应该存在别人的服务器上。

当你把大模型跑在自己电脑上,你拥有的不只是一个工具,而是一个完全属于你的 AI 助手

编者注:有人说”我又没什么秘密”。但你写的日记、你和 AI 讨论的商业计划、你让 AI 帮你改的简历——这些东西,你真的愿意让陌生人看到吗?隐私不是因为你有什么见不得人的,而是因为那是你的。


你需要什么?

关键指标只有一个:内存(统一内存)。

Apple Silicon 的 Mac 有一个独特优势:CPU 和 GPU 共享同一块内存。

这意味着——你的内存就是你的显存。

模型大小需要的内存推荐机型
70 亿参数8GBMacBook Air
140 亿参数16GBMacBook Pro
700 亿参数64GBMac Studio
2300 亿参数128GB+Mac Studio Ultra

编者注:别被顶配吓退。一台入门级 MacBook Pro 就够跑小模型了。本地 AI 的门槛,比你想象的低得多。

还需要:

  • macOS Sonoma 14.0+
  • Python 3.12+
  • MLX 框架(Apple 官方开源)
  • 约 120GB 硬盘空间

动手:从零到对话

第一步:安装 MLX

打开终端,三行命令搞定:

创建 Python 虚拟环境 → 激活 → 安装 MLX。

整个过程不到 5 分钟。

第二步:下载模型

这是最考验耐心的一步。

MiniMax-M2.5 的量化版本大约 120GB,下载速度取决于网络。我用了大约 2 小时。

为什么选 MiniMax-M2.5?

模型总参数激活参数特点
Llama 3.1700 亿700 亿社区大
Qwen 2.5720 亿720 亿中文强
MiniMax-M2.52300 亿100 亿性价比极高

MiniMax-M2.5 用了 MoE(混合专家)架构:虽然总参数有 2300 亿,但每次推理只激活 100 亿参数。

编者注:MoE 就像一个大公司——虽然有 2300 个员工,但每次开会只叫 100 个人。所以你不需要租一个能坐 2300 人的会议室,100 人的就够了。

第三步:启动服务

一行命令启动 MLX 服务。

第一次启动会比较慢——需要把模型加载到内存里,大约 3-5 分钟。

启动成功后——恭喜,你现在拥有了一个私有的 AI 服务器。

第四步:开始对话

和 ChatGPT 的调用方式几乎一模一样。

你现有的任何 AI 工具——聊天界面、自动化脚本——都可以无缝切换到本地模型。只需要改两行配置。

编者注:MLX 的 API 兼容性做得非常好。Apple 虽然在 AI 领域动作慢,但 MLX 这个框架确实是给开发者的一份大礼。


踩坑实录

坑 1:启动巨慢

第一次启动用了 HuggingFace 的缓存路径,MLX 会逐个验证模型文件,光验证就花了 20 分钟。

解决:直接用本地路径,秒启。

坑 2:局域网连不上

想从另一台电脑访问,一直报错。排查半天,发现是 HTTP 代理把局域网请求也代理了。

解决:设置代理例外,排除局域网地址。

坑 3:跑着跑着就挂了

连续运行 19 小时后,服务悄悄死掉了。没有报错,没有日志。

这是 MLX 的已知问题。

解决:写个看门狗脚本,每 5 分钟检查一次,挂了自动重启。

编者注:让本地 AI 教你怎么让它自动重启——这大概是 AI 时代最有哲学意味的事情了。


实际体验

跑了几天后,我的结论:

✅ 适合做的事: 日常对话、文本摘要、简单代码、翻译、隐私敏感处理

❌ 不太行的事: 长文写作、复杂推理、最新知识、超长对话

核心结论:本地模型是补充,不是替代。

它最大的价值不是”比 ChatGPT 更强”,而是”在 ChatGPT 不方便用的时候,给你一个选择”——断网的时候、处理敏感数据的时候、不想付订阅费的时候。


成本算一算

项目费用
硬件你已有的 Mac
电费一杯咖啡的钱
软件¥0(全部开源)
API 费用¥0(永久免费)

编者注:如果你像我一样,买 Mac 的理由本来就包括”跑本地模型”——那这篇文章就是在帮你合理化一笔已经花出去的钱。心理学管这叫”购后合理化”,我管这叫”理性投资”。


给普通人的建议

想体验? 16GB Mac + 7B 模型,1 小时搞定。

想认真用? 64GB + 70B 模型 + 自动启动脚本。

想折腾到极致? 256GB + 局域网共享 + 自动化工作流。

不管哪种,核心就一句:先跑起来,再慢慢折腾。

编者注:这也是《AI时代漫游指南》第 24 章的核心观点:「习惯的敌人不是懒,而是启动成本。」先把大模型跑起来,哪怕只是对话两句——降低启动成本,后面的事情自然会发生。


写在最后

半年前,本地跑大模型还是极客的专属领地。你需要 NVIDIA 显卡、CUDA 驱动、Docker 容器……

MLX 改变了这个局面。

Apple 做了一件很聪明的事:把大模型推理和统一内存深度绑定。

你的内存就是你的显存。

这就是为什么我说算力丰裕时代正在到来——不是因为云端 API 变便宜了,而是因为你桌上的电脑,已经有能力成为一个 AI 服务器了。


「2025 年的选择决定 2035 年的位置。」——《AI时代漫游指南》第 50 章

不是因为你必须在本地跑大模型,而是因为你应该知道——你可以。


🔗 相关资源

  • MLX 框架(GitHub)— Apple 官方开源
  • MLX-LM — 一键跑本地大模型
  • MiniMax-M2.5(HuggingFace)— MIT 开源,免费商用

如果这篇文章帮到你了,欢迎分享给需要的朋友。我们下期见。

Don’t Panic.


作者:漫游君 公众号:AI时代漫游指南

这篇文章对你有帮助吗?

分享这篇文章

X / Twitter

感谢阅读这篇文章

约花了 12 分钟。如果对你有帮助,欢迎订阅 RSS 或收藏待读。

讨论

这篇文章让你感觉

评分

喜欢这篇文章?

订阅 RSS,第一时间收到新文章推送

订阅 RSS

私人笔记

仅保存在本地浏览器

讨论

评论加载中...