OpenClaw+本地AI模型：数据不出Mac的oMLX方案

系列本地模型实践 → 第 5 篇 / 共 6 篇

《AI时代漫游指南》第 78 章写道：

「在 AI 时代，拥有一台能跑大模型的电脑，就像大航海时代拥有一艘船。你不一定要出海，但你得知道——你可以。」

前三篇我们聊了 OpenClaw 怎么装、怎么防、为什么火。有个问题一直没解决：

你的每一句对话，都在飞往大洋彼岸的服务器。

用 OpenAI API，数据去美国。用 Claude API，数据去美国。甚至用 DeepSeek API，数据虽然留在国内，但留在别人的服务器上。

有没有一种方案，让 OpenClaw 接上本地模型——数据完全不出你的 Mac？

有。叫 oMLX。

一、为什么现在该认真考虑本地模型

先说结论：不是因为本地模型比云端好，而是因为”够用”的门槛降了。

三件事同时发生：

Mac Mini 脱销了。 苹果最便宜的 Apple Silicon 桌面机，突然成了 AI 圈的硬通货。原因很简单——统一内存架构让 Mac 能跑大模型，不需要 NVIDIA 显卡。

模型效率飞跃。 Qwen3-Next-80B 用了 MoE（混合专家）架构，800 亿参数但只有 30 亿激活参数。翻译成人话：模型很大，但每次推理只用一小部分，所以对内存和算力的要求没你想象的高。

oMLX 让多模型管理变得傻瓜。 以前 Mac 上跑本地模型要自己折腾 mlx_lm.server，一次只能加载一个模型，切换要重启。oMLX 改变了这个局面——像管理 App 一样管理你的本地模型。

编者注：Mac Mini 脱销这件事很有意思。M4 芯片 + 统一内存 + oMLX，让一台 ¥4,000 的小电脑变成了”个人 AI 服务器”。这在两年前是无法想象的——那时候跑大模型意味着一台 ¥30,000 的 NVIDIA 工作站。硬件民主化和软件民主化在同一个时间点交汇，不是巧合。

二、oMLX 是什么：你的本地 AI 调度台

oMLX 是一个开源的 Mac 本地模型推理引擎。它做了三件关键的事：

1. 多模型 LRU 管理

把所有模型放在一个目录里（比如 ~/models/），oMLX 自动扫描。你调用哪个模型，它就加载哪个。内存不够了？自动把最久没用的模型卸掉，腾出空间。

就像你手机上的 App——不用关，系统自己管理内存。

2. OpenAI 兼容 API

oMLX 提供标准的 OpenAI API 接口。这意味着任何支持 OpenAI API 的工具都能直接接入——包括 OpenClaw。

不需要改代码，不需要装插件。把 API 地址从 api.openai.com 改成 localhost:8079，完事。

3. 管理后台

一个网页面板，能看到：哪些模型已加载、内存占用多少、推理速度如何。还支持直接在网页上聊天测试。

而且——我们给 oMLX 做了完整的中文汉化。 422 行翻译文件，覆盖了整个管理后台的每一个按钮、每一条提示。这意味着你打开 oMLX 看到的是全中文界面，不需要对着英文猜。

编者注：开源社区的妙处在于——你觉得哪里不好用，可以自己改。我们遇到 oMLX 没中文界面，就提了 PR 做了汉化。这不是”贡献精神”，是”自己要用所以顺手干了”。开源协作的最佳状态就是这样——每个人解决自己的痛点，顺便解决了别人的。

三、实战：OpenClaw 接上本地模型

我们在 Mac Studio（M3 Ultra，256GB 内存）上跑了三个月，分享实际架构和踩坑经验。

架构很简单

OpenClaw → model_gateway(:8080) → oMLX(:8079) → 本地模型
                                       ↓（视觉请求）
                                  mlx_vlm(:8081)

中间那层 model_gateway 是我们自己写的一个薄代理，只做两件事：

别名翻译：你在 OpenClaw 里输入 qwen3，代理自动翻译成本地模型的完整路径名
视觉路由：如果请求带图片，自动转发到专门的视觉模型端口

我们跑了哪些模型

模型	参数量	磁盘占用	内存占用	用途
Qwen3-Next-80B（4bit）	800 亿	~45GB	~40GB	日常对话、写作
MiniMax-M2.5（4bit）	4560 亿	~120GB	~120GB	重度推理
Qwen3-VL-32B（4bit）	320 亿	~18GB	~18GB	图片理解

说个大实话：这三款模型都不是普通 Mac 能跑的——MiniMax-M2.5 要 120GB，Qwen3-80B 要 40GB，连最小的 Qwen3-VL 也要 18GB。我们用的是 Mac Studio 256GB 内存，属于重度配置。

Mac Mini 24GB 能跑什么？ 8B-14B 参数的模型完全没问题：

模型	内存占用	Mac Mini 24GB
Qwen3-8B（4bit）	~5GB	轻松
Llama3-8B（4bit）	~5GB	轻松
Qwen3-14B（4bit）	~9GB	没问题
Qwen3-32B（4bit）	~18GB	勉强（留给系统的少）
Qwen3-80B（4bit）	~40GB	跑不了

8B 模型做日常对话、翻译、摘要已经够用。不够用再考虑升级内存或走云端混合路由。

一个小提醒：代理干扰

Mac 上如果开了全局代理（科学上网），本地 API 调用也会走代理，然后超时。解决方法：在 no_proxy 里加上 127.0.0.1,localhost。这是 Mac 本地开发的常见问题，不只是 oMLX，所有本地服务都会遇到。

编者注：oMLX 迭代很快，早期版本确实有不少坑（缓存路径慢、Vision 不支持等），但最新版基本都修好了。开源项目的好处就是——社区踩坑，开发者修，下一个人就不用再踩了。我们给 oMLX 提的汉化和 Bug 反馈，也是这个循环的一部分。

四、本地模型 vs 云端 API：怎么选

不要二选一，要混合用。

场景	推荐方案	原因
涉及公司数据、客户信息	本地模型	数据不出设备
日常聊天、翻译、摘要	本地模型	够用，免费
复杂编程、架构设计	云端 Claude/GPT-4	本地模型能力还有差距
图片生成	云端 API	本地算力不够
合规要求严格的企业场景	本地模型 + 国产云端	数据不出境

OpenClaw 的优势恰好在这里——它是一个网关，不绑定任何一个模型。你可以配置路由规则：敏感对话走本地，普通任务走云端。

我们自己的配置：日常对话 → Qwen3-Next-80B（本地），代码和架构 → Claude Opus（云端），图片理解 → Qwen3-VL（本地）。省钱的同时，敏感数据不出设备。

编者注：这个”混合路由”的思路和之前写的 Claude + MiniMax 智能路由是同一个逻辑——不用最好的模型做所有事，用合适的模型做合适的事。只是这次多了一个维度：不只是价格，还有数据安全。

五、Mac Mini 用户的快速上手路径

如果你刚买了 Mac Mini，想试试本地 AI，最简单的路径：

第一步：装 oMLX

pip install omlx

如果 pip install 在国内很慢，用清华镜像源：

pip install omlx -i https://pypi.tuna.tsinghua.edu.cn/simple

第二步：下载一个模型

打开 oMLX 管理后台，搜索 Qwen3，点下载。或者用命令行：

huggingface-cli download Qwen/Qwen3-8B-MLX-4bit --local-dir ~/models/Qwen3-8B

8B 参数的模型只需要 ~5GB 内存，Mac Mini 24GB 版绰绰有余。想要更强的可以试 14B（~9GB），日常对话和翻译体验已经很接近云端模型了。

第三步：启动

omlx serve --model-dir ~/models --port 8079

浏览器打开 http://localhost:8079/admin，你就能看到中文管理后台了。

第四步：接入 OpenClaw

在 OpenClaw 的模型配置里加一个 Provider：

API 地址：http://localhost:8079/v1
模型名：你下载的模型名
API Key：留空（本地不需要）

完成。你的龙虾现在有了一个本地大脑，对话数据不出你的电脑。

编者注：整个过程大概 15 分钟（不算模型下载时间）。跟装一个 App 差不多。两年前在 Mac 上跑大模型需要编译 C++ 依赖、配置 Metal shader、手动管理内存。现在是 pip install + 三行命令。这就是生态成熟的标志。

六、数据安全：本地模型的真正价值

回到上一篇讨论的政策话题。

多地政府出台的”龙虾政策”里，无锡明确要求”部署 OpenClaw 时必须通过国产化适配认证”，深圳龙岗限定”使用国内头部多模态大模型”。

本地模型是合规等级最高的方案——数据不出设备，没有出境问题，没有第三方泄露风险。

但别过度乐观。341 个恶意技能包事件提醒我们：即使数据不出设备，供应链攻击依然存在。 你下载的模型文件是否被篡改？你安装的 oMLX 是否是官方版本？这些问题不会因为”本地部署”就自动消失。

安全的正确姿势不是”本地就安全了”，而是多层防御：本地部署（数据不出设备）+ 来源验证（模型和工具从官方渠道下载）+ 上篇讲的安全加固措施。

编者注：本地部署解决了”数据在哪”的问题，但没解决”软件可信吗”的问题。就像你在家做饭解决了食品安全问题，但如果食材本身有问题，在哪做都不安全。安全是一个系统工程，不是一个部署方式。

写在最后

这是 OpenClaw 系列的第四篇。

第一篇装起来，第二篇防起来，第三篇搞明白为什么火，这篇让数据留在本地。

一条完整的路径：从”用别人的 AI”到”拥有自己的 AI”。

你不一定需要现在就跑本地模型。但 Mac Mini 脱销说明一件事——越来越多人开始认真思考”我的 AI 数据在哪”这个问题。

《AI时代漫游指南》第 78 章说：

「你不一定要出海，但你得知道——你可以。」

oMLX + OpenClaw，就是你的那艘船。

想省钱用 AI？ 我们实测的 Claude + MiniMax 智能路由方案，月成本降 65%。新用户通过下方链接注册 MiniMax Coding Plan 还有 9 折优惠：

👉 https://platform.minimax.io/subscribe/coding-plan?code=5DY5X6nz4s&source=link

不想自己折腾？ 闲鱼搜「[AI时代]OpenClaw安装配置服务」，远程 1 对 1，装好+加固+本地模型，不成功不收费。

觉得有用的话，分享给身边也在关注 AI 的朋友吧 👇

漫游君 | AI时代漫游指南

OpenClaw+本地AI模型：数据不出Mac的oMLX方案

一、为什么现在该认真考虑本地模型

二、oMLX 是什么：你的本地 AI 调度台

三、实战：OpenClaw 接上本地模型

架构很简单

我们跑了哪些模型

一个小提醒：代理干扰

四、本地模型 vs 云端 API：怎么选

五、Mac Mini 用户的快速上手路径

六、数据安全：本地模型的真正价值

写在最后

相关文章

本地跑大模型：Apple Silicon 上的 LLM 实践指南

龙虾热的真相：算力过剩时代的个人AI

OpenClaw安全加固：用魔法打败魔法

感谢阅读这篇文章

讨论

私人笔记

讨论