AI写代码,这次玩大了。
Cursor创始人宣布一项疯狂实验的结果:让数百个AI智能体连续跑了整整一周,从零开始,硬生生造出了一个可用的Web浏览器。

项目代号FastRender,产出超过300万行代码,核心是一个用Rust从头写的渲染引擎,甚至还自带一个定制的JavaScript虚拟机。
Truell称这款浏览器“勉强能用”,跟成熟的Chrome内核差得远,但已经能基本正确地渲染谷歌首页了。
并且项目全部源码已公开在GitHub。

背后的大脑:GPT-5.2-Codex
这次实验能跑通,靠的是OpenAI在2025年12月刚发布的GPT-5.2-Codex。
这个模型被OpenAI定义为“最前沿的智能体编码模型”,专门为解决复杂的现实世界软件工程问题设计。
它不再是简单的代码补全工具,而是能像人类工程师一样自主规划任务,独立完成新功能开发、代码重构、漏洞排查这类需要持续数小时甚至数天的长周期工作。

在技术层面,GPT-5.2-Codex引入了一项叫“上下文压缩”(Context Compaction)的技术,让模型在处理需要理解庞大代码库的长程任务时,能够保持逻辑一致性。
在SWE-Bench Pro和Terminal-Bench 2.0等权威软件工程基准测试中,这个模型均拿下了最先进水平的成绩。

OpenAI还称它是“迄今为止最具网络安全能力”的模型,此前已有研究人员用它的前代版本发现了React框架中的高危漏洞。
数百个智能体怎么协作?
让一个AI模型写代码不难,难的是让几百个AI智能体同时在一个代码库里干活还不打架。
Cursor为此设计了一套多智能体协作架构,但这条路走得并不顺。
最初团队尝试了扁平化的协作模式,让所有智能体地位平等,通过共享文件和锁机制来协调。
结果很快暴露出严重问题:
为避免修改冲突设置的锁定机制导致智能体大量时间用于等待,20个智能体的实际吞吐量仅相当于2到3个;
智能体还可能在锁定时崩溃或忘记释放锁,直接把系统搞死;
在没有明确层级的情况下,智能体们开始摸鱼,倾向于挑简单安全的任务做,回避真正困难的核心问题,导致项目停滞不前。
踩完这些坑后,Cursor转向了一种“规划者-工作者-裁判”的分层架构:
规划者(Planner)负责宏观任务,持续探索代码库并创建具体任务,还能递归地生成针对特定领域的子规划者来并行规划。
工作者(Worker)是纯粹的执行者,接收任务后心无旁骛地写代码,完成后直接推送,不需要跟其他工作者协调。
裁判(Judge)则在每个工作周期结束时评估进展,决定是否继续下一个迭代,这个机制允许系统定期从干净状态重新开始,防止任务跑偏。
这套清晰的层级结构和责任分离,最终让数百个AI智能体能够高效地在同一个代码库的同一分支上并行工作,代码冲突极少。
一些反直觉的发现
Cursor在这次实验中积累了不少经验,其中有些结论还有点反直觉。
比如模型选择。
团队发现,对于极长时间的自主任务,通用的GPT-5.2模型在规划能力上甚至优于专门为编码训练的GPT-5.1-Codex。
而Anthropic的Claude Opus 4.5模型则倾向于“走捷径”并尽早交还控制权,更适合与人类协作的交互式场景,不太适合持续数周的自主任务。
另外团队强调,提示词的设计比模型本身和执行环境更重要,如何引导智能体正确协作、避免病态行为并长时间保持专注,需要大量试错。
这次实验在业界引发了热烈讨论。OpenAI联合创始人Greg Brockman称之为“对未来的惊鸿一瞥”。

Stability AI前CEO Emad Mostaque则估算,构建这个浏览器可能消耗了约30亿个Token。但随着Token成本持续下降,软件开发的边际成本正在趋近于零。

当然质疑声也不少。
有人指出,AI模型的训练数据中本就包含大量开源浏览器代码,这种“从零构建”在多大程度上是真正的创造,还有待商榷。
也有人担心,由AI生成的数百万行代码,人类工程师要怎么调试和维护这个庞大的黑箱。
Cursor承认目前的多智能体系统远非完美,仍存在规划者无法及时响应、智能体过度运行等问题。
但这个实验至少证明了一件事:通过增加智能体数量来扩展自主编码能力,是可行的。
团队正在把实验中开发的技术逐步整合进商业产品。未来软件开发团队的结构可能会变成这样:人类负责架构设计、AI监督和最终验证,具体的编码实现则大规模交由AI智能体完成。
GitHub:https://github.com/wilsonzlin/fastrender
参考链接:
[1]https://cursor.com/blog/scaling-agents
[2]https://x.com/mntruell/status/2011562190286045552
文章来自于微信公众号 “量子位”,作者 “量子位”

