年初那会儿,DeepSeek 横空出世,AI 圈子跟过年一样热闹。它凭啥这么火?除了开源够意思,五百多万的训练成本也惊艳了不少人。
在此之后,模型的训练成本越来越便宜,前阵子 Deep Cogito 甚至只花不到 350 万美刀,就搞出了一个(自称)能跟 o3 和 Claude 4 Opus 性能比肩的模型。
这让不少创业公司觉得,商业模式清晰了:先用「每月 20 美元」这样的低价包月服务圈住用户,赌的就是未来模型成本会像摩尔定律一样降下来。
但这个看似完美的剧本,其实是一个注定会失败的陷阱。和一路走低的训练成本相反,AI 公司的运营成本,尤其是「推理」费用,正在坐着火箭往上窜。
这让 AI 公司面临两难抉择:「无限订阅」会亏死,「按量计费」会饿死。 TextQL 联合创始人兼 CEO 丁一帆(Ethan Ding)的一篇博客深度剖析了 AI 公司正在面临的此类「囚徒困境」,并给出了建议。 文章风趣幽默且深入浅出,非常值得一读。
- 博客标题:tokens are getting more expensive
- 博客链接:https://ethanding.substack.com/p/ai-subscriptions-get-short-squeezed
以下是文章的详细内容。
即便「语言模型未来会便宜 10 倍」的预测成真,也无法拯救 AI 订阅服务免于这场成本挤压。
想象一下你创办了一家公司。
你心里很清楚:消费者每月最多只愿意为产品支付 20 美元。没问题,你想,这正是经典的风投操作思路 —— 以成本价运营,牺牲利润换增长。CAC(获客成本)、LTV (生命周期价值)那套你也都算过了,一切在掌控之中。
但接下来的部分才真正有意思:你看过 a16z 那张图 —— LLM 成本每年会下降 10 倍。
图片来源:https://a16z.com/llmflation-llm-inference-cost/
于是你心想:现在用户月付 20 美元,我刚好打平;等到明年模型成本降价 10 倍,利润率一下冲到 90%,简直是稳赚不赔。
亏损只是暂时的,盈利是必然的。
这个逻辑简单到 连风投助理都能听懂:
- 第一年:20 美元打平
- 第二年:成本下降 10 倍 → 毛利率 90%
- 第三年:去看游艇 🛥️
这套剧本也确实看起来合理:「LLM 推理成本每 6 个月下降 3 倍,我们撑一撑就好了。」
但现实是:18 个月过去了,毛利率几乎跌到历史最低点……
Windsurf 已经被拆卖回收了,Claude Code 这周也不得不取消原来的 200 美元 / 月无限使用计划。
公司们依旧在流血,模型确实变便宜了 ——GPT-3.5 的推理成本比原来低了 10 倍。可不知怎么的,利润不仅没变好,反而更糟了。
哪里不对劲?
没人想要过期的报纸
GPT-3.5 的确比以前便宜了 10 倍。但它现在的吸引力,就像 iPhone 发布会当天你掏出个翻盖手机 —— 谁还会想用?
每当一个新模型被发布并成为 SOTA(最先进技术),99% 的需求会立即转向它。用户已经默认了这种节奏,对他们来说,产品理应不断升级。
现在来看看现实中那些真正占据市场 99% 需求的前沿模型的定价历史 —— 你就会发现问题所在:
注意到什么了吗?
当 GPT-4 以每月 60 美元的价格发布时,大家还是一窝蜂上去了,哪怕前一代的 SOTA——GPT-3.5,便宜了整整 26 倍。当 Claude 3 Opus 以同样的价格上线时,人们同样纷纷迁移,尽管此时 GPT-4 已经降价了。是的,10 倍成本下降确实存在,但那通常适用于那些「就差没跑在 Commodore 64 上」的老模型。
这就是「成本会下降」战略的第一个幻觉支点:
用户只对「最强语言模型」有需求,仅此而已。
而「最强模型」的价格始终差不多,因为那正是当前推理边界(edge of inference)的真实成本。
你说:「这辆车现在便宜多了!」可你指的是一辆 1995 年的本田思域。当然,它确实便宜。但你想买的是 2025 年的丰田凯美瑞,厂商指导价仍是 3 万美元。
当你在使用 AI —— 不管是编程、写作、还是思考 —— 你天然会追求极致质量。没人会打开 Claude 然后说:「嗯,我今天不如用一下比较烂的版本,省点公司开销吧。」
我们是认知上的「贪婪动物」,只想要最强的大脑。尤其当我们在用自己的时间来做平衡的时候。
模型的资源消耗远超预期
你可能会说:「好吧,但这还在可控范围内,对吧?就算一直打平也没事嘛?」
天真的孩子。
确实,每一代前沿模型的 单个 token 成本并没有变贵,但有件事更糟糕的事情发生了:
它们吞掉的 token 数量,简直爆炸式增长。
以前你在 ChatGPT 里问一句话,它就回你一句。现在,「深度研究」模式会先花 3 分钟做规划,再用 20 分钟浏览材料,最后还要用 5 分钟把报告润色一遍。O3 模型甚至能为了回应一句 「你好啊」,跑满 20 分钟。
由于 强化学习(RL)和推理阶段计算的爆炸式增长,出现了一个谁也没预料到的现象:
AI 能完成的任务长度,每 6 个月翻一倍。
以前一次调用输出 1,000 个 token,现在轻轻松松就是 100,000 个 token。
图片来源:https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
当你真正把这件事算清楚,数字会让人抓狂。
现在,一次 20 分钟的「深度研究」调用大概花费 1 美元。但到 2027 年,我们将拥有能连续运行 24 小时、而且不会跑题的 AI agent…… 再叠加「前沿模型价格不降」的现实?
一次这样的调用,就变成了 72 美元 / 天 / 用户。
而且别忘了,未来这些 agent 是可以异步并发运行多个任务的。一旦我们真正部署这种 24 小时不间断运行的 agent,我们就不会再是「发一个指令、等它回你一条消息」。
我们会直接按批次调度:整个 AI 劳动力方阵同时并行处理问题,疯狂燃烧 token,仿佛又回到了 1999 年互联网泡沫那年。
重点来了 —— 我必须强调:
每月 20 美元的订阅费,连用户每天进行一次 1 美元的深度调用都撑不起。
但我们正朝着那个方向全速狂奔。每一次模型能力的提升,带来的并不是成本节省,而是:它能更有效地消耗更多算力。
就像你造了一个更节能的发动机,结果你拿它去造了一辆怪兽卡车。没错,油耗确实更高效了,但你现在烧的是原来的 50 倍汽油。
这正是那场导致 Windsurf 被强制平仓的「空头挤压(short squeeze)」—— 而任何采用「固定费率订阅 + 高 token 消耗」的商业模式的初创公司,如今也正面临同样的命运。
Anthropic 尝试填补
成本挤压的窟窿
Claude Code 的「无上限」套餐实验,是我们所见过的、为渡过这场风暴所做的最高明的尝试。他们用尽了浑身解数,但最终还是惨败。
他们的策略手册确实非常聪明:
- 定价提高十倍
在 Cursor 收费 20 美元 / 月时,他们定价 200 美元 / 月。在开始「出血」(亏损)前,留出更多的缓冲空间。
- 根据负载自动伸缩模型
当负载过重时,从 Opus (每百万 token 75 美元) 切换到 Sonnet (每百万 token 15 美元)。在读取任务上,用 Haiku 进行优化。这就像 AWS 的自动伸缩,但伸缩的对象是「大脑」(模型)。
他们几乎可以肯定,是把这种行为直接构建进了模型权重之中,这是一种我们未来可能会更多见到的范式转换。
- 将处理任务卸载到用户机器上
当用户的 CPU 正好闲置时,何必再启动自己的沙盒环境呢?
然而,尽管有这些高超的工程设计,token 的消耗量依然如超新星爆发般激增。
图片来源:https://www.viberank.app/
一百亿个 token。这相当于一个月内一万两千五百本《战争与和平》的量。
怎么做到的?即便是每次运行 10 分钟,一个人如何能消耗掉一百亿个 token?
事实证明,10 到 20 分钟的连续运行,时间长得足以让人们发现 for 循环的妙用。一旦你将 token 消耗与用户在应用内的在线时长脱钩,物理规律便会开始主导一切。给 Claude 设定一个任务,让它检查自己的工作,重构代码,进行优化,然后重复此过程,直到公司破产。
用户变成了 API 编排者,花着 Anthropic 的钱,运行着 7×24 小时不间断的代码转换引擎。从聊天到代理的演变一夜之间就完成了消耗量增加了 1000 倍。这是相变,而非渐变。
所以,Anthropic 取消了无限使用套餐。他们本可以尝试每月收费 2000 美元,但他们学到的教训不是定价不够高,而是在这个新世界里,任何订阅模式下都无法提供无限使用。
在这个新世界里,不存在一个行得通的固定订阅价格。
这种(定价)数学模型已经从根本上失效了。
所有人的囚徒困境
这让其他所有人都陷入了进退两难的境地。
每家 AI 公司都知道,按使用量计费能救他们。但他们也知道,这同样会杀了他们。当你负责任地按照每千 token 收费 0.01 美元时,你那有风投支持的竞争对手却提供每月 20 美元的无限使用套餐。
猜猜用户会去哪里?
经典的囚徒困境:
* 所有人都按使用量计费 → 行业可持续发展
* 所有人都采用固定费率 → 陷入探底竞赛
* 你按量计费,别人用固定费率 → 你独自走向灭亡
* 你用固定费率,别人按量计费 → 你赢了(但之后还是会死)
所以,所有人都选择了背叛。
每个人都在补贴重度用户。每个人都在发布曲棍球棒式的增长曲线图。最终,每个人都会发布「重要的价格调整通知」。
Cursor、Lovable、Replit—— 他们都算得清这笔账。他们选择了今天要增长,明天要利润,最终走向破产 —— 但那是下一任 CEO 的问题。
老实说?这或许是对的。在「圈地运动」中,市场份额比利润率更重要。只要风投们还愿意继续开出支票来填补单位经济模型的窟窿……
如何避免亏损平仓?
我们真的能避开 token 成本挤压吗?
最近有传言称 Cognition 正在以 150 亿美元的估值进行融资,而其对外公布的年经常性收入(ARR)甚至不到 1 亿美元(我猜实际可能接近 5000 万美元)。这与 Cursor 形成了鲜明对比,后者在年经常性收入达到 5 亿美元、增长曲线更为陡峭的情况下,才获得了 100 亿美元的估值。
Cursor 的收入是 Cognition 的八倍多,估值却只有其三分之二。那些风投到底知道哪些我们所不知道的关于 Cognition 的内幕?它们都是编写代码的 AI 代理。难道 Cognition 已经找到了摆脱死亡螺旋的方法?
有三条出路:
1. 从第一天起就采用按使用量计费
没有补贴,没有「先拉新、后变现」,只有实实在在的经济模型。这在理论上听起来很棒。 但问题是,你能找出一个实现了爆发式增长、面向消费者的、按使用量计费的 AI 公司吗?
消费者讨厌按量计费。他们宁愿为无限使用多付点钱,也不愿收到一张意料之外的账单。每一个成功的消费者订阅服务 ——Netflix、Spotify、ChatGPT—— 都是固定费率。一旦你开始计量收费,增长就停滞了。
2. 极高的转换成本 ⇒ 高利润率
这正是 Devin 全力押注的策略。他们最近宣布了与 Citi 和 Goldman Sachs 的合作,向这两家公司的各 40000 名软件工程师部署 Devin。按每月 20 美元计算,这是一个千万美元级的项目。
但问题来了:你宁愿从 Goldman Sachs 那里获得 1000 万美元的年经常性收入,还是从专业级个人开发者那里获得 5 亿美元?
答案是显而易见的:长达六个月的实施、合规审查、安全审计、以及地狱般的采购流程,意味着来自 Goldman Sachs 的收入虽然难以赢得 —— 但一旦赢得,客户就几乎不可能流失。
只有在银行里的那位唯一决策者将自己的声誉押注在你身上时,才能拿到这些合同 —— 届时,所有人都会尽其所能确保项目成功。
这也解释了为什么除了那些超大规模云服务商之外,最大的软件公司都是向这类客户进行销售的「记录系统公司」 [如 CRM / ERP / EHRs]。他们的利润率也都能达到 80-90%,因为客户越难流失,他们对价格就越不敏感。
等到竞争对手出现时,你已经深深嵌入到对方的行政流程中,更换供应商需要又一个长达六个月的销售周期。问题不是「你不能走」,而是 —— 你的 CFO 宁愿去死,也不想再经历一次供应商评估。
3. 垂直整合 ⇒ 从基础设施上赚钱
这就是 Replit 的玩法:将编码代理与应用托管、数据库管理、部署监控、日志记录等服务捆绑在一起。在每个 token 上都亏钱,但在技术栈的每一个其他层面上为新一代开发者捕获价值…… 看看 Replit 的垂直整合做得多深就知道了。
图片来源:https://x.com/mattppal/status/1932798993626771556
把 AI 当作亏本换流量的产品,来推动那些能与 AWS 竞争的服务的消费。你卖的不是推理服务,而是其他一切。推理服务本身只是营销开支。
这种模式的天才之处在于,代码生成天然地创造了对托管服务的需求。每个应用都需要运行的地方,每个数据库都需要管理,每个部署都需要监控。让 OpenAI 和 Anthropic 去进行推理服务的价格归零竞赛吧,而你拥有了其他的一切。
那些还在玩「不计成本、追求增长的固定费率模式」的公司呢?它们都只是行尸走肉,只不过它们的昂贵葬礼被安排在了今年第四季度。
未来之路
我总是看到创始人们指望着「明年模型成本会便宜十倍!」这句话,就好像抓住了一根救命稻草。的确如此,但到那时,你的用户对模型的期望可能会提高二十倍。目标正在冲刺着远离你。
还记得 windsurf 吗?由于 cursor 给他们的利润表带来了巨大压力,他们最终也未能找到摆脱困境的方法。即便是拥有全球最深度垂直整合应用层的 anthropic,也无法让固定订阅费下的无限使用模式跑通。
尽管「levered beta is all you need」一文的结论 —— 即先发优势胜过聪明才智 —— 依然成立,但没有计划的「先发」也意味着你会第一个走进创业坟场。
- 相关博客链接:https://ethanding.substack.com/p/levered-beta-is-all-you-need
现在可没有 Google 会为负毛利业务开出 24 亿美元的支票了。当「以后」意味着你的 AWS 账单超过了你的收入时,就不再有「我们以后再想办法」这回事了。
但好在,至少明年的模型成本会便宜十倍。
文章来自于微信公众号“机器之心”。