大模型：从 .txt 到 .exe

下面这个，来自《人类的认知协议》的最后一个章节，写于一年前

大模型：从 .txt 到 .exe

发布于一年前，2024年12月3日

大致就是：AI 的输出，不应该止步于“文本”

《人类的认知协议》创作的时间背景：

Claude 已经出了 Artifacts，支持在 ChatBot 中渲染网页；Bolt.new 火的正当时，可以快速的构建各种应用

这也不是正儿八经的“协议”或“哲学”，纯粹就是信息带宽有限

所谓的 Prompt，是是我们把意图压缩成 .txt 传给机器，但当机器把结果传回给我们时，如果还是吐出一堆 .txt，那其实是在浪费人类的解码带宽

算账的时候，计算器比文字快看趋势的时候，图表比描述快做决策的时候，交互组件比对话框快

算效率的账：.txt 不如 .exe

别给我 .txt

过去两年，我们习惯了 Chatbot 的模式

但这种模式有个天然的局限：它是线性的

信息像水流一样逐字流出，是一个字符接着一个字符的 .txt。但我们遇到的问题，往往是结构化的、多维的你让模型对比两款房贷

它给你写几百字的分析，你得耐着性子看完，自己在脑子里画表

大模型：从 .txt 到 .exe

这就是现在的体验，读完这一大段话，我的脑子已经过载了

这种交互并没有解决问题，它只是把“计算过程”翻译成了“文字描述”。在很多场景下，这反而是把简单问题复杂化了

大家想要的其实很简单：别跟我废话，给我个工具，让我自己动手

从给答案（Answer），变成给制品（Artifact）从生成文本（Generation），变成渲染界面（Rendering）

这才是该有的样子

两份样本

昨天发布的两个产品，刚好提供了两份比较典型的样本上午蚂蚁发的“灵光”，夜里 Google 发的 Gemini 3

先说灵光

灵光是蚂蚁的新产品，是业内首个能够生成全模态内容的 AI 助手（官方说法）

这么说看着有点玄乎，放几个官方的 case 吧

大模型：从 .txt 到 .exe

还有这种，可以直接做成应用

大模型：从 .txt 到 .exe

大致就是，AI 能够生成包括 3D 模型、音频、图标、动画、地图在内的多种模态，让信息传递更高效。就挺有意思的，可以看下他们官方的信息发布：给大家介绍个新朋友，「灵光」！

然后这东西…1天20万用户…

大模型：从 .txt 到 .exe

再说谷歌

昨天晚上，Google 发布 Gemini 3，具体可以看这里：一文详解｜Gemini-3，及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..

其中，谷歌也把类似的能力加进了搜索，演示的案例是“三体问题”。当你搜这玩意儿的时候，Gemini 3 不再是给你推一堆 .html 的链接，而是利用 coding capabilities，现场编写并渲染一个模拟器

你可以拖动星球，看引力变化

大模型：从 .txt 到 .exe

Google 也是拼了，搜个物理题还得现场给你写个游戏引擎

Google 把它叫做“Generative UI”

也包括这个，当询问房贷利率的时候，不是给你示例文字，而是给你拖出来一个可视化计算器，自己摁着看

大模型：从 .txt 到 .exe

这是一种很新的搜索

这两家，前后一天，发布了差不多的思路：用户需求，被AI封装成了交互实体

大模型：从 .txt 到 .exe

App Store 的护城河，被 AI 被撕开了一个口子

在这里，我相信还有一个更深层的逻辑在发生变化：

长尾理论，正在被重写

长尾理论

这一理论由美国《连线》杂志主编克里斯·安德森提出，是一个描述网络时代商业模式的理论。

在《长尾理论》中，当商品存储、流通和展示的成本显著降低时，大量销量不高但种类繁多的“长尾”小众产品所汇聚的市场份额，可以与少数主流热门产品的市场份额相当甚至更大。

以前我们说长尾，是因为数字货架的存储成本为零。但我们忽略了一点：人类的检索成本，同样是高的

比如，你要去找一个“适合左撇子的番茄钟”得在 App Store 里翻找、下载、试用。这种由于检索摩擦带来的损耗，其实扼杀了绝大多数微小的需求

而现在的这种模式，把逻辑彻底反过来了：没有货架，没有库存，只有需求

当你说出需求的那一刻，方案才被构造出来。这构建了下一代的长尾：原子化的、无限的、即时编译的长尾

它不再是一个通用的 App 试图去满足 1000 个人，而是一个一次性软件，只为了满足你此时此刻的这一分钟

微信当年喊了很久的“用完即走”，最终被 AI 以一种更决绝的方式实现了：只解决需求，用完即焚

奇怪的番外

纯粹说点八卦，可以跳过

阿里系的两个兄弟，在深秋的同一周，不约而同地把枪口抬高了一寸，去尝试卡位未来的AI入口：

通义突然改名，去掉了“通义”这个 B 端的抬头，直接叫“千问”
蚂蚁反手掏出“灵光”，剑走偏锋，死磕 Agent 和工具生成

对了…这里我用的是阿里系，而不是阿里，划重点

具体原因是啥，咱也不合适讨论，你可以说“大棋局”或者“赛马机制”，也可以说就是单纯时间上的“撞车”，大概率就是各自的产品迭代节奏赶到这儿了

想看就看这里：始末｜通义、千问、Qwen、Qwen Chat 的来龙去脉

大模型：从 .txt 到 .exe

注意…灵光属于蚂蚁，蚂蚁是阿里系，但不在阿里集团

巨头的产品矩阵总是拥挤的，多一张牌，多一种可能性

身体与脑子

最后，聊个发布会之外的闲话，发布那天，我正好在中关村创业大街AGI Bar 知识蒸馏，在给攒一个具身智能的 after party（中关村具身智能机器人应用大赛），就很抽象、很开心

大模型：从 .txt 到 .exe

但看着它们，其实总还是少了点什么，逻辑大体还是“查库”。遇到任务，去数据库里匹配现成的技能。匹配不到，就尬住了

如果把昨天 Google 和蚂蚁展示的这种“现场生成工具”的能力，给到机器人呢？除了后空翻，也让机器人学着去敬酒，也学点商务技能

大模型：从 .txt 到 .exe

机器人，也得有业务能力

接个任务，不用查库，直接通过视觉分析环境，现场写一个专用的执行脚本，现场生成一套视觉反馈逻辑

大模型：从 .txt 到 .exe

比如…直接来个剪刀石头布

这才是软件和硬件该有的结合现在的 AI 已经能自己写 .exe 了，硬件也快能翻跟头，但这一眼看过去，总觉得中间还隔着层窗户纸

说句双关的玩笑话：现在的机器人，也就是脑子，还欠点“灵光”（os：灵光记得打钱）

文章来自于“赛博禅心”，作者 “金色传说大聪明”。

{{userData.name}}已认证

别给我 .txt

两份样本

先说灵光

再说谷歌

奇怪的番外

身体与脑子

这就是大厂的AI「氛围编程」：老工程师现身说法后，大家绷不住了

20 岁大学生靠 Vibe Coding，把课程作业卷上 GitHub 热榜第一

390亿美元，全球具身智能第一估值来了！英伟达持续加注中

摩尔线程天使投资人：对近期AI的四十个观察

谷歌AI研究员，潜入梵蒂冈游说教皇：AGI将带来末日！

速递｜估值四个月翻四倍：David AI获5000万美元融资，英伟达旗下NVentures参投