1/20的价格,90%的能力:开源AI的逆袭
根据《AI时代漫游指南》第 37 章「混合策略哲学」记载:
「宇宙中最高效的策略,从来不是单选题。当你纠结于”用最贵的还是最便宜的”时,聪明人已经两个都用上了。」
📌 前情提要
两周前,我写了一篇「配额烧到80%,$10救活AI系统」,讲的是我在 Claude 配额告急时,用 MiniMax 的 $10 包月套餐接管了系统日常巡检——省了六成费用,效果几乎无差别。
那篇文章的结论是:
不是每个任务都需要最强的模型,该省省,该花花。
今天,MiniMax 自己用一组新数据,帮我把这个结论推到了极致。
💥 发生了什么
2 月 12 日,MiniMax 发布了 M2.5 和 M2.5 Lightning 两款模型。
这不是普通的版本更新。
它们是完全开源的——代码权重全部公开,任何人都能下载、部署、魔改。
先看一张关键数据表:
| 指标 | MiniMax M2.5 | Claude Opus 4.6 | 差距 |
|---|---|---|---|
| SWE-Bench | 80.2% | 80.8% | 仅差 0.6% |
| 多语言编程 | 51.3% | 50.3% | M2.5 反超 |
| 工具调用 | 76.8% | 63.3% | M2.5 大幅领先 |
| 输出价格 | $1.20/百万token | ~$25/百万token | 1/20 |
你没看错。
在最权威的代码基准测试 SWE-Bench 上,M2.5 和 Claude Opus 4.6 的差距只有 0.6 个百分点。
而在工具调用和多语言编程上,M2.5 甚至反超了。
价格呢?
Claude Opus 的 1/10 到 1/20。
【编者注】 这就好比你发现隔壁小面馆的红烧牛肉面,和米其林三星餐厅的红烧牛肉面,味道差距不到 1%,但价格差了 30 倍。然后你还得知,小面馆的菜谱是公开的,你甚至可以自己在家做。
🔄 从”加油包”到”平替时代”
两周前 vs 今天
两周前我的方案是:
- Claude Max $200/月 → 干重活
- MiniMax Starter $10/月 → 干轻活
逻辑是分工——轻活不需要最强的模型。
但 M2.5 的发布改变了这个等式。
现在不只是”轻活”可以用 MiniMax 了。
看数据:
-
SWE-Bench 80.2%——这是真正的代码工程能力测试,不是做选择题。它要模型读懂真实代码仓库,定位 bug,写出正确的修复补丁。
-
工具调用 76.8%——AI Agent 的核心技能,M2.5 领先 Opus 13 个百分点。
这不再是”便宜但够用”的故事了。
这是便宜、够用、而且在某些方面更强。
【编者注】 开源 AI 的发展路径很像手机行业。2015 年,所有人都觉得 iPhone 不可替代。然后小米出来了,用 1/3 的价格做到了 90% 的体验。再然后,安卓阵营在某些方面开始反超。AI 模型也正在走这条路。
🧠 230 亿参数的”小”模型
M2.5 有个容易被忽略的亮点:
它总共 2300 亿参数,但活跃参数只有 100 亿。
这意味着:
1. 推理更快
Lightning 版本达到每秒 100 个 token,跟 Opus 的极速模式持平。
2. 部署更便宜
云端运行成本低,所以 API 价格才能做到 1/30。
3. 本地可跑
10B 活跃参数意味着一台 4090 就能跑起来。
第三点最炸裂。
你可以把一个接近顶级的编程模型,跑在自己的电脑上。零成本。无限额度。
🏗️ 我的新方案:三层架构
上篇文章是”双引擎”,现在升级成”三层架构”:
| 层级 | 模型 | 用途 | 月费 |
|---|---|---|---|
| 第一层 | Claude Opus | 架构设计、复杂推理、关键决策 | $200 |
| 第二层 | MiniMax M2.5 API | 日常编程、代码审查、Bug 修复 | ~$20 |
| 第三层 | M2.5 本地部署 | 监控、批量处理 | $0 |
| 合计 | ~$220 |
费用和之前差不多,但第二层的能力大幅升级了。
从只能干”轻活”的旧模型,变成了能正经写代码的 M2.5。
【编者注】 这就是技术进步的常见模式:你的总支出没变,但你能做的事情多了一倍。就像宽带从 100M 升到 1000M,月费没涨多少,但你的生活质量上了一个台阶。
用 M2.1 跑了两周的真实体感
上面是 M2.5 的跑分数据。
但我对 MiniMax 的信心不是来自跑分——而是上一代 M2.1 已经在我的系统里稳稳跑了两周。
体感一:心跳巡检,稳如老狗。
我的系统有 10 多个服务,每天自动巡检——检查状态、汇报异常、决定是否需要深度排查。
这种”分诊台”的活,M2.1 跑了两周,零事故。
每天上百次调用,成本几乎忽略不计。
体感二:有些坑,跑分不会告诉你。
MiniMax 不支持系统提示词(system prompt)。你不能用常规方式给它设定角色——得把角色说明塞到用户消息的开头。
更坑的一个:MiniMax 看不了图片。它有图片理解工具,但模型不会主动调用——它会假装自己看懂了,然后胡说八道。
我们最后的方案是:先把图片送去专门的视觉模型分析,再把文字结果塞回给 MiniMax。
体感三:能干活,但需要你当”工头”。
Claude 像一个资深工程师,给个方向就能自己推进。
MiniMax 更像一个能力不错的执行者——你得给它明确的任务清单,它能高质量完成,但不太擅长自己规划下一步。
我们为此写了一个”任务种子”机制:代码层先列好待办,MiniMax 照单执行。效果很好,成本极低。
体感四:M2.5 发布当天,无缝升级。
M2.5 发布后,我当天就把系统全线从 M2.1 升级到了 M2.5。
API 完全兼容,改个模型名就完事了。
这就是开放生态的好处——升级不需要等别人排期。
而 M2.1 在”轻活”上的表现已经让我很满意了,M2.5 的跑分跃升意味着它能接手更多”重活”。
💎 开源的真正意义
很多人看到”1/20 的价格”就兴奋了。
但价格只是开源 AI 带来的最表层红利。
真正的变革是三件事:
第一,选择权回到了你手里
用闭源模型,你是租客。涨价、改 API、降配、限速——你除了接受,没有别的选择。
用开源模型,你是房东。不满意?换一个。想改?Fork 一份自己调。
两周前我遇到 Claude 配额告急,能做的只是”赶紧找替代”。
如果那时就有 M2.5,我可以直接在自己的机器上跑一个——根本不需要看任何人的配额脸色。
第二,成本结构彻底改变
按 API 调用,M2.5 Lightning 每小时持续生成的成本约 $1。
本地部署?一台 4090 显卡(约 ¥12,000),电费每月约 ¥200。无限额度,永不过期。
相当于买了个”终身会员”。三个月回本,之后全是净省。
第三,创新的门槛降低了
以前想做个 AI 产品原型,光 API 费用就劝退了大多数人。
现在?一台好点的电脑,一个开源模型,就能开始。
⚠️ 冷静一下:开源不是万能的
跑分 ≠ 实战
80.2% 的 SWE-Bench 分数很漂亮。
但跑分测试的是标准化场景——给你一个 Issue,写一个修复补丁。
实际工作中,你需要模型理解你的项目上下文、你的代码风格、你上周做了什么决定。
这种深度理解,目前 Claude 还是最强的。
M2.5 能写代码,但”懂你”这件事,差距不止 0.6%。
本地部署有门槛
“一台 4090 就能跑”听起来很美好,但:
- 跑完整模型需要量化和多卡
- 推理速度本地会比云端慢
- 部署和维护需要技术能力
如果你不是技术人员,直接用 API 是最省心的选择。
生态还在早期
Claude 背后是完整的工具链——Claude Code、Artifacts、Projects、MCP 协议。
M2.5 目前主要是模型本身强。围绕它的工具生态还在建设中。
📝 写在最后
1/20 的价格不是重点,重点是你终于有了选择。
开源的终极价值不是免费,是自由。
最好的 AI 策略不是 All-in 一个模型,是建一支”混合舰队”。
跑分只能告诉你模型有多聪明,用起来才知道它有多懂你。
✅ 下一步行动
1. 先用 API 试水
去 MiniMax 官网注册,用 M2.5 的 API 跑几个你的真实任务
2. 对比一下
同样的任务,分别用 Claude 和 M2.5 跑,记录质量差异和成本差异
3. 找到你的”甜蜜区”
哪些任务 M2.5 够用?哪些必须用 Claude?
4. 建立混合策略
参考我的三层架构,设计你自己的模型分配方案
难度等级:⭐⭐ (共五星) — 比上篇更简单,M2.5 的 API 兼容 OpenAI 格式
❓ 常见问题
Q1: M2.5 真的能替代 Claude 了吗?
还不能完全替代。跑分接近不等于体验一样。
Claude 在深度理解、多轮对话连贯性方面仍然领先。
我的建议:高价值决策用 Claude,日常编程用 M2.5,监控用本地部署。三层架构,各司其职。
Q2: 跟上次的 MiniMax 是同一个东西吗?
同一家公司,不同模型。
上篇文章用的是他们早期的 Coding Plan 包月套餐。M2.5 是全新一代,性能有巨大飞跃——从”能干轻活”升级到”能正经写代码”。
Q3: 1/20 的价格怎么算的?
按 API 输出价格算。M2.5 标准版 $1.20/百万 token,Lightning 版 $2.40/百万 token。Claude Opus 4.6 约 $25/百万 token。标准版 vs Opus 就是 1/20 的价格,Lightning 也有 1/10。
Q4: 不会本地部署怎么办?
完全没关系。直接用 MiniMax 的 API 就行,体验和调 Claude API 几乎一样(兼容 OpenAI 格式)。本地部署是进阶玩法,不是必须的。
《AI时代漫游指南》有云:
「在这个宇宙中,最贵的从来不是最强的模型,而是只会用最强模型的人。当你学会让不同的模型各司其职,你就掌握了 AI 时代最核心的效率法则。」
往期推荐: 配额烧到80%,$10救活AI系统
👇 点击”在看”,让更多人知道开源 AI 已经这么强了
关注「AI 时代漫游指南」,获取更多 AI 时代的效率方法论
相关文章
这篇文章对你有帮助吗?
分享这篇文章
引用此文
讨论
这篇文章让你感觉
喜欢这篇文章?
订阅 RSS,第一时间收到新文章推送
私人笔记
仅保存在本地浏览器讨论
评论加载中...