跳到正文
1/20的价格,90%的能力:开源AI的逆袭
0%
工具评测 · · 2,523 字 · 漫游君 · 深度 · 🟢 入门 ·

1/20的价格,90%的能力:开源AI的逆袭

根据《AI时代漫游指南》第 37 章「混合策略哲学」记载:

「宇宙中最高效的策略,从来不是单选题。当你纠结于”用最贵的还是最便宜的”时,聪明人已经两个都用上了。」


📌 前情提要

两周前,我写了一篇「配额烧到80%,$10救活AI系统」,讲的是我在 Claude 配额告急时,用 MiniMax 的 $10 包月套餐接管了系统日常巡检——省了六成费用,效果几乎无差别。

那篇文章的结论是:

不是每个任务都需要最强的模型,该省省,该花花。

今天,MiniMax 自己用一组新数据,帮我把这个结论推到了极致。


💥 发生了什么

2 月 12 日,MiniMax 发布了 M2.5 和 M2.5 Lightning 两款模型。

这不是普通的版本更新。

它们是完全开源的——代码权重全部公开,任何人都能下载、部署、魔改。

先看一张关键数据表:

指标MiniMax M2.5Claude Opus 4.6差距
SWE-Bench80.2%80.8%仅差 0.6%
多语言编程51.3%50.3%M2.5 反超
工具调用76.8%63.3%M2.5 大幅领先
输出价格$1.20/百万token~$25/百万token1/20

你没看错。

在最权威的代码基准测试 SWE-Bench 上,M2.5 和 Claude Opus 4.6 的差距只有 0.6 个百分点

而在工具调用和多语言编程上,M2.5 甚至反超了。

价格呢?

Claude Opus 的 1/10 到 1/20。

【编者注】 这就好比你发现隔壁小面馆的红烧牛肉面,和米其林三星餐厅的红烧牛肉面,味道差距不到 1%,但价格差了 30 倍。然后你还得知,小面馆的菜谱是公开的,你甚至可以自己在家做。


🔄 从”加油包”到”平替时代”

两周前 vs 今天

两周前我的方案是:

  • Claude Max $200/月 → 干重活
  • MiniMax Starter $10/月 → 干轻活

逻辑是分工——轻活不需要最强的模型。

但 M2.5 的发布改变了这个等式。

现在不只是”轻活”可以用 MiniMax 了。

看数据:

  • SWE-Bench 80.2%——这是真正的代码工程能力测试,不是做选择题。它要模型读懂真实代码仓库,定位 bug,写出正确的修复补丁。

  • 工具调用 76.8%——AI Agent 的核心技能,M2.5 领先 Opus 13 个百分点。

这不再是”便宜但够用”的故事了。

这是便宜、够用、而且在某些方面更强

【编者注】 开源 AI 的发展路径很像手机行业。2015 年,所有人都觉得 iPhone 不可替代。然后小米出来了,用 1/3 的价格做到了 90% 的体验。再然后,安卓阵营在某些方面开始反超。AI 模型也正在走这条路。


🧠 230 亿参数的”小”模型

M2.5 有个容易被忽略的亮点:

它总共 2300 亿参数,但活跃参数只有 100 亿

这意味着:

1. 推理更快

Lightning 版本达到每秒 100 个 token,跟 Opus 的极速模式持平。

2. 部署更便宜

云端运行成本低,所以 API 价格才能做到 1/30。

3. 本地可跑

10B 活跃参数意味着一台 4090 就能跑起来。

第三点最炸裂。

你可以把一个接近顶级的编程模型,跑在自己的电脑上。零成本。无限额度。


🏗️ 我的新方案:三层架构

上篇文章是”双引擎”,现在升级成”三层架构”:

层级模型用途月费
第一层Claude Opus架构设计、复杂推理、关键决策$200
第二层MiniMax M2.5 API日常编程、代码审查、Bug 修复~$20
第三层M2.5 本地部署监控、批量处理$0
合计~$220

费用和之前差不多,但第二层的能力大幅升级了

从只能干”轻活”的旧模型,变成了能正经写代码的 M2.5。

【编者注】 这就是技术进步的常见模式:你的总支出没变,但你能做的事情多了一倍。就像宽带从 100M 升到 1000M,月费没涨多少,但你的生活质量上了一个台阶。

用 M2.1 跑了两周的真实体感

上面是 M2.5 的跑分数据。

但我对 MiniMax 的信心不是来自跑分——而是上一代 M2.1 已经在我的系统里稳稳跑了两周。

体感一:心跳巡检,稳如老狗。

我的系统有 10 多个服务,每天自动巡检——检查状态、汇报异常、决定是否需要深度排查。

这种”分诊台”的活,M2.1 跑了两周,零事故。

每天上百次调用,成本几乎忽略不计。

体感二:有些坑,跑分不会告诉你。

MiniMax 不支持系统提示词(system prompt)。你不能用常规方式给它设定角色——得把角色说明塞到用户消息的开头。

更坑的一个:MiniMax 看不了图片。它有图片理解工具,但模型不会主动调用——它会假装自己看懂了,然后胡说八道。

我们最后的方案是:先把图片送去专门的视觉模型分析,再把文字结果塞回给 MiniMax。

体感三:能干活,但需要你当”工头”。

Claude 像一个资深工程师,给个方向就能自己推进。

MiniMax 更像一个能力不错的执行者——你得给它明确的任务清单,它能高质量完成,但不太擅长自己规划下一步。

我们为此写了一个”任务种子”机制:代码层先列好待办,MiniMax 照单执行。效果很好,成本极低。

体感四:M2.5 发布当天,无缝升级。

M2.5 发布后,我当天就把系统全线从 M2.1 升级到了 M2.5。

API 完全兼容,改个模型名就完事了。

这就是开放生态的好处——升级不需要等别人排期。

而 M2.1 在”轻活”上的表现已经让我很满意了,M2.5 的跑分跃升意味着它能接手更多”重活”。


💎 开源的真正意义

很多人看到”1/20 的价格”就兴奋了。

但价格只是开源 AI 带来的最表层红利。

真正的变革是三件事:

第一,选择权回到了你手里

用闭源模型,你是租客。涨价、改 API、降配、限速——你除了接受,没有别的选择。

用开源模型,你是房东。不满意?换一个。想改?Fork 一份自己调。

两周前我遇到 Claude 配额告急,能做的只是”赶紧找替代”。

如果那时就有 M2.5,我可以直接在自己的机器上跑一个——根本不需要看任何人的配额脸色。

第二,成本结构彻底改变

按 API 调用,M2.5 Lightning 每小时持续生成的成本约 $1。

本地部署?一台 4090 显卡(约 ¥12,000),电费每月约 ¥200。无限额度,永不过期。

相当于买了个”终身会员”。三个月回本,之后全是净省。

第三,创新的门槛降低了

以前想做个 AI 产品原型,光 API 费用就劝退了大多数人。

现在?一台好点的电脑,一个开源模型,就能开始。


⚠️ 冷静一下:开源不是万能的

跑分 ≠ 实战

80.2% 的 SWE-Bench 分数很漂亮。

但跑分测试的是标准化场景——给你一个 Issue,写一个修复补丁。

实际工作中,你需要模型理解你的项目上下文、你的代码风格、你上周做了什么决定。

这种深度理解,目前 Claude 还是最强的。

M2.5 能写代码,但”懂你”这件事,差距不止 0.6%。

本地部署有门槛

“一台 4090 就能跑”听起来很美好,但:

  • 跑完整模型需要量化和多卡
  • 推理速度本地会比云端慢
  • 部署和维护需要技术能力

如果你不是技术人员,直接用 API 是最省心的选择。

生态还在早期

Claude 背后是完整的工具链——Claude Code、Artifacts、Projects、MCP 协议。

M2.5 目前主要是模型本身强。围绕它的工具生态还在建设中。


📝 写在最后

1/20 的价格不是重点,重点是你终于有了选择。

开源的终极价值不是免费,是自由。

最好的 AI 策略不是 All-in 一个模型,是建一支”混合舰队”。

跑分只能告诉你模型有多聪明,用起来才知道它有多懂你。


✅ 下一步行动

1. 先用 API 试水

去 MiniMax 官网注册,用 M2.5 的 API 跑几个你的真实任务

2. 对比一下

同样的任务,分别用 Claude 和 M2.5 跑,记录质量差异和成本差异

3. 找到你的”甜蜜区”

哪些任务 M2.5 够用?哪些必须用 Claude?

4. 建立混合策略

参考我的三层架构,设计你自己的模型分配方案

难度等级:⭐⭐ (共五星) — 比上篇更简单,M2.5 的 API 兼容 OpenAI 格式


❓ 常见问题

Q1: M2.5 真的能替代 Claude 了吗?

还不能完全替代。跑分接近不等于体验一样。

Claude 在深度理解、多轮对话连贯性方面仍然领先。

我的建议:高价值决策用 Claude,日常编程用 M2.5,监控用本地部署。三层架构,各司其职。

Q2: 跟上次的 MiniMax 是同一个东西吗?

同一家公司,不同模型。

上篇文章用的是他们早期的 Coding Plan 包月套餐。M2.5 是全新一代,性能有巨大飞跃——从”能干轻活”升级到”能正经写代码”。

Q3: 1/20 的价格怎么算的?

按 API 输出价格算。M2.5 标准版 $1.20/百万 token,Lightning 版 $2.40/百万 token。Claude Opus 4.6 约 $25/百万 token。标准版 vs Opus 就是 1/20 的价格,Lightning 也有 1/10。

Q4: 不会本地部署怎么办?

完全没关系。直接用 MiniMax 的 API 就行,体验和调 Claude API 几乎一样(兼容 OpenAI 格式)。本地部署是进阶玩法,不是必须的。


《AI时代漫游指南》有云:

「在这个宇宙中,最贵的从来不是最强的模型,而是只会用最强模型的人。当你学会让不同的模型各司其职,你就掌握了 AI 时代最核心的效率法则。」


往期推荐: 配额烧到80%,$10救活AI系统

👇 点击”在看”,让更多人知道开源 AI 已经这么强了

关注「AI 时代漫游指南」,获取更多 AI 时代的效率方法论

这篇文章对你有帮助吗?

分享这篇文章

X / Twitter

感谢阅读这篇文章

约花了 16 分钟。如果对你有帮助,欢迎订阅 RSS 或收藏待读。

讨论

这篇文章让你感觉

评分

喜欢这篇文章?

订阅 RSS,第一时间收到新文章推送

订阅 RSS

私人笔记

仅保存在本地浏览器

讨论

评论加载中...