大模型:从 .txt 到 .exe

下面这个,来自《人类的认知协议》的最后一个章节,写于一年前

大模型:从 .txt 到 .exe

发布于一年前,2024年12月3日

大致就是:AI 的输出,不应该止步于“文本”

《人类的认知协议》创作的时间背景:

Claude 已经出了 Artifacts,支持在 ChatBot 中渲染网页;Bolt.new 火的正当时,可以快速的构建各种应用

这也不是正儿八经的“协议”或“哲学”,纯粹就是信息带宽有限

所谓的 Prompt,是是我们把意图压缩成 .txt 传给机器,但当机器把结果传回给我们时,如果还是吐出一堆 .txt,那其实是在浪费人类的解码带宽

算账的时候,计算器比文字快看趋势的时候,图表比描述快做决策的时候,交互组件比对话框快

算效率的账:.txt 不如 .exe

别给我 .txt

过去两年,我们习惯了 Chatbot 的模式

但这种模式有个天然的局限:它是线性的

信息像水流一样逐字流出,是一个字符接着一个字符的 .txt。但我们遇到的问题,往往是结构化的、多维的你让模型对比两款房贷

它给你写几百字的分析,你得耐着性子看完,自己在脑子里画表

大模型:从 .txt 到 .exe

这就是现在的体验,读完这一大段话,我的脑子已经过载了

这种交互并没有解决问题,它只是把“计算过程”翻译成了“文字描述”。在很多场景下,这反而是把简单问题复杂化了

大家想要的其实很简单:别跟我废话,给我个工具,让我自己动手

从给答案(Answer),变成给制品(Artifact)从生成文本(Generation),变成渲染界面(Rendering)

这才是该有的样子

两份样本

昨天发布的两个产品,刚好提供了两份比较典型的样本上午蚂蚁发的“灵光”,夜里 Google 发的 Gemini 3

先说灵光

灵光是蚂蚁的新产品,是业内首个能够生成全模态内容的 AI 助手(官方说法)

这么说看着有点玄乎,放几个官方的 case 吧

大模型:从 .txt 到 .exe

大模型:从 .txt 到 .exe

还有这种,可以直接做成应用

大模型:从 .txt 到 .exe

大致就是,AI 能够生成包括 3D 模型、音频、图标、动画、地图在内的多种模态,让信息传递更高效。就挺有意思的,可以看下他们官方的信息发布:给大家介绍个新朋友,「灵光」!

然后这东西…1天20万用户…

大模型:从 .txt 到 .exe

再说谷歌

昨天晚上,Google 发布 Gemini 3,具体可以看这里:一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..

其中,谷歌也把类似的能力加进了搜索,演示的案例是“三体问题”。当你搜这玩意儿的时候,Gemini 3 不再是给你推一堆 .html 的链接,而是利用 coding capabilities,现场编写并渲染一个模拟器

你可以拖动星球,看引力变化

大模型:从 .txt 到 .exe

Google 也是拼了,搜个物理题还得现场给你写个游戏引擎

Google 把它叫做“Generative UI”

也包括这个,当询问房贷利率的时候,不是给你示例文字,而是给你拖出来一个可视化计算器,自己摁着看

大模型:从 .txt 到 .exe

这是一种很新的搜索

这两家,前后一天,发布了差不多的思路:用户需求,被AI封装成了交互实体

大模型:从 .txt 到 .exe

App Store 的护城河,被 AI 被撕开了一个口子

在这里,我相信还有一个更深层的逻辑在发生变化:

长尾理论,正在被重写

长尾理论

这一理论由美国《连线》杂志主编克里斯·安德森提出,是一个描述网络时代商业模式的理论。

在《长尾理论》中,当商品存储、流通和展示的成本显著降低时,大量销量不高但种类繁多的“长尾”小众产品所汇聚的市场份额,可以与少数主流热门产品的市场份额相当甚至更大。

以前我们说长尾,是因为数字货架的存储成本为零。但我们忽略了一点:人类的检索成本,同样是高的

比如,你要去找一个“适合左撇子的番茄钟”得在 App Store 里翻找、下载、试用。这种由于检索摩擦带来的损耗,其实扼杀了绝大多数微小的需求

而现在的这种模式,把逻辑彻底反过来了:没有货架,没有库存,只有需求

当你说出需求的那一刻,方案才被构造出来。这构建了下一代的长尾原子化的、无限的、即时编译的长尾

它不再是一个通用的 App 试图去满足 1000 个人,而是一个一次性软件,只为了满足你此时此刻的这一分钟

微信当年喊了很久的“用完即走”,最终被 AI 以一种更决绝的方式实现了:只解决需求,用完即焚

奇怪的番外

纯粹说点八卦,可以跳过

阿里系的两个兄弟,在深秋的同一周,不约而同地把枪口抬高了一寸,去尝试卡位未来的AI入口:

  • 通义突然改名,去掉了“通义”这个 B 端的抬头,直接叫“千问”
  • 蚂蚁反手掏出“灵光”,剑走偏锋,死磕 Agent 和工具生成

对了…这里我用的是阿里系,而不是阿里,划重点

具体原因是啥,咱也不合适讨论,你可以说“大棋局”或者“赛马机制”,也可以说就是单纯时间上的“撞车”,大概率就是各自的产品迭代节奏赶到这儿了

想看就看这里:始末|通义、千问、Qwen、Qwen Chat 的来龙去脉

大模型:从 .txt 到 .exe

注意…灵光属于蚂蚁,蚂蚁是阿里系,但不在阿里集团

巨头的产品矩阵总是拥挤的,多一张牌,多一种可能性

身体与脑子

最后,聊个发布会之外的闲话,发布那天,我正好在中关村创业大街AGI Bar 知识蒸馏,在给攒一个具身智能的 after party(中关村具身智能机器人应用大赛),就很抽象、很开心

大模型:从 .txt 到 .exe

但看着它们,其实总还是少了点什么,逻辑大体还是“查库”。遇到任务,去数据库里匹配现成的技能。匹配不到,就尬住了

如果把昨天 Google 和蚂蚁展示的这种“现场生成工具”的能力,给到机器人呢?除了后空翻,也让机器人学着去敬酒,也学点商务技能

大模型:从 .txt 到 .exe

机器人,也得有业务能力

接个任务,不用查库,直接通过视觉分析环境,现场写一个专用的执行脚本,现场生成一套视觉反馈逻辑

大模型:从 .txt 到 .exe

比如…直接来个剪刀石头布

这才是软件和硬件该有的结合现在的 AI 已经能自己写 .exe 了,硬件也快能翻跟头,但这一眼看过去,总觉得中间还隔着层窗户纸

说句双关的玩笑话:现在的机器人,也就是脑子,还欠点“灵光”(os:灵光记得打钱)

文章来自于“赛博禅心”,作者 “金色传说大聪明”。

搜索