当 AI 开始像人一样用手机

从豆包到阶跃星辰的Step-GUI:手机正在成为 AI 的新入口

当 AI 开始像人一样用手机

最近,因为豆包手机助手的发布,关于 GUI Agent(图形用户界面智能体) 的讨论很热烈。

GUI Agent 不是新概念,它要做的事说白了就是:让 AI 直接「看屏幕、点按钮、拖进度条」,像人一样操作电脑、手机,甚至车机界面。

11 月 29 日,阶跃星辰开源了 4B 的 GUI Agent:Step-GUI Edge

12 月 1 日,字节跳动的豆包联合中兴发布了 GUI Agent 手机助手工程样机,3 万台一售而空。

12 月 9 日,智谱直接开源了 AutoGLM:AutoGLM-Phone-9B

而就在今天, 我们关注到阶跃星辰再度悄悄上线了 2 个新东西

【1】 GUI API :Step-GUI

【2】专门面向 GUI Agent 的 MCP(模型上下文协议)。

首先,各大厂商纷纷发布 GUI Agent 的一大出发点就是: GUI Agent 是基于视觉理解,就可以适配大量 App,无需厂商额外改造,接入成本很低,所以被视为目前终端设备打破 APP 之间操作壁垒,跨应用协同的最现实路径之一。

不过在 GUI Agent 的实际应用中,大家遇到了一个很现实的问题:如果动用参数量非常大的模型,那么这个解决方案太重了,贵且慢,另外如果涉及到隐私场景,用户则希望数据能保留在本地端侧。

从这个出发点看来,解决方案要符合:性价比,要在手机、车机、电脑上能跑得起来。同时考虑到实用性,它要能在足够丰富的场景下执行复杂和多元的任务。

所以大家有了个初步共识:端云协同。

在端侧(Edge): 小模型负责协调。也就是具体的点击、滑动、隐私保护。

因为很少有人愿意把自己微信聊天的截图,每时每刻都传到云端服务器去,所以识别屏幕、操作 App 最好在手机本地完成。

在云侧(Cloud): 更高维的大模型负责思考,处理复杂的逻辑推理、任务拆解。

阶跃星辰近期发布的 GUI Agent 系列,是符合这个逻辑的:

首先, Step-GUI 系列包含 2 个模型:Step-GUI (云侧模型)和 Step-GUI Edge(端侧模型)。

在端侧,Step-GUI Edge 做到了 4B(40 亿参数) ,这意味着它能在手机上跑得更轻快。以手机设备为例,⾏业普遍认为,7B 以下模型才能顺利部署并执行任务。就测试结果来看,Step-GUI Edge 是首款能够真正部署到手机上的 GUI 模型。而云侧的 Step-GUI  则会有更长的上下文和语义理解能力、以及更强的泛化能力,适合执行更多复杂任务场景。

而这个 Step-GUI Edge(原名:Gelab-Zero) 在 11 月 29 日就被开源在了 GitHub 上,项目在 1 周内,就在 GitHub 上快速突破了 1K Stars。

GitHub 链接:https://github.com/stepfun-ai/gelab-zero

当 AI 开始像人一样用手机

开发者们之所以关注这个项目,是因为它给到了一条技术路径:

对于屏幕语义理解和元素定位这种任务,其实并不一定需要千亿参数的模型。

一个经过 GUI 数据微调的小参数模型,是能够很有效率地识别屏幕上的图标、按钮和文字,并转化为坐标和操作指令。

所以,在验证了技术可行性和技术社区的「欢迎度」之后,阶跃星辰继续进行了完善,将这回的 Step-GUI 系列和 GUI-MCP 协议都打包发了出来。

十字路口团队从 0 到 1 完整部署并测评了云端模型 Step-GUI API 和 GUI-MCP 协议。

接下来,分享我们的实测体验和观察。

「Step-GUI + MCP」协议实测报告

首先,先说下我的设备:

电脑:MacBook

手机:华为老款手机

由于 GUI Agent 用在手机上,所以这里我用来测试的连接方式就是:ADB

阶跃星辰官网上的指导已经非常详细且「小白」了,这里我就不多做叙述,大家可以按照下面这个网址一步一步来:

https://platform.stepfun.com/docs/llm/model-lab

不过首先我承认,由于每个人的电脑配置环境都不一样,所以你还是可能会碰到很多的问题。比如说,我在安装 Homebrew 的时候就会遇到网速过于慢的情况,根本连不到源

我有个小窍门,就是用 Trae 这类的 AI IDE,告诉它:「帮我下载 Homebrew」,因为网络问题,它直接选择了国内的镜像源下载,非常方便:

当 AI 开始像人一样用手机

(ps.接下来测试案例的所有完整视频,都没有进行加速)

1)礼貌地「反」借钱

说实话,我刚一想到 GUI Agent 的用法时,第一个反应就是它如何帮助我礼貌地解决一个「虚构的场景」:

在微信上,可能会时不时有人来「借钱」,但我有时候并不想打开那个聊天框,也不是很愿意发送「礼貌的拒绝消息」。

所以,这个时候我就想用 GUI Agent 来帮我完成这件事情。

提示词如下:

检索我微信里主页面关于‘借钱’的聊天记录,如果有,帮我自动回复‘🙏最近我也手头挺紧张的,不好意思啦~’,只检索最近聊天的10个人的最新聊天记录。

我们先来看看完整结果的录屏,从最开始让它执行任务,到完成整个任务它花费了 46 秒,成果还可以:

当 AI 开始像人一样用手机

最后的结果如下,它很顺畅地向某位联系人发送了「礼貌反借钱语录」,然后就退了出去:

当 AI 开始像人一样用手机

下面我们来仔细看一看细节。

在终端上,Step-GUI 的所有任务过程都会非常清楚地显示:

当 AI 开始像人一样用手机

而且,它在找到这位需要借钱的联系人的时候,还会判断最新的聊天时间是下午 5:32,在所有结果中是最新的。

所以说,它应该去点击这个结果,而不只是根据这个关键词来判断

当 AI 开始像人一样用手机

Step-GUI 启动后,不仅是简单地匹配关键词,它表现出了一种「判断力」

2)给「Koji」小红书笔记点赞+评论

当 Step-GUI 完成上面这个任务时,我就在思考 GUI Agent 在面对「搜索-进入-评论-返回-再评论」这种长链条操作时,会不会因为页面层级太深而迷路。

所以,我就做了下面这个测试:让它打开 Koji 的小红书,然后在文章下面的评论区点赞并评论。

提示词如下:

打开的小红书APP,搜索账号:Koji杨远骋,点个关注,并在前 2 篇笔记下的评论区评论:Koji,请在 2026 年继续加油!

完整结果如下,整个任务的时间你会发现明显延长了,但是完成得还是蛮流畅的:

当 AI 开始像人一样用手机

这个任务执行了 2 次评论,2 次都成功了,我们来看看完成后的结果:

当 AI 开始像人一样用手机

Step-GUI 展现了一定的稳定性和判断能力。

比如,在任务执行过程它遇到了下面这两次「权限判定」,都完成得很好,甚至帮我一键绑定了本机号码:

当 AI 开始像人一样用手机

这是它这一步的思考链:

当 AI 开始像人一样用手机

3)打开快手,帮我自动赚金币,选择提现方式到微信钱包

阶跃星辰这回还同步发布了 Step-GUI MCP 协议并且模型是限免的。

这个 MCP 协议最大的亮点之一,就是能让你在云端调用各家厂商的模型,比如:Claude、GPT、Gemini 之类的,这个时候你就需要把 Step-GUI 当作 MCP Server 来用了。

这里最方便的就是先去安装一个 「Fast Mcp」(教程官网链接都有):

当 AI 开始像人一样用手机

然后,我们再去下一个 Chatbox,这样就能很方便地灵活接入各个模型:

当 AI 开始像人一样用手机

接着在一个对话框里,需要给 AI 设置一个系统提示词,告诉它能用 GUI Agent 就用,智能不足了就自己拿接的 LLM 拆解一下:

当 AI 开始像人一样用手机

接着就可以把 Step-GUI 做成 MCP Server 了:

当 AI 开始像人一样用手机

接下来,我们试试这个场景:很多朋友的父母其实都在用快手极速版去赚金币,而我觉得这对他们的视力也很不好,所以在想能不能用 Step-GUI 去完成这个任务。

快手极速版 App 的任务中心是典型的设计得非常花哨,充满了弹窗、倒计时和动态干扰的元素。这是对 GUI Agent 视觉理解能力和状态感知能力的很大的考验。

比如说,我想让 Step-GUI 去点击快手极速版 APP 主页面画面左上角的红包标识,这是一个任务中心。进入到任务中心之后,再向下滑动,有一个「选词搜索赚金币」的任务。点击这个任务之后,它下面会有推荐的一系列热词的入口。然后,再挨个去点这些入口,才能去看广告赚金币。

具体的 3 个页面如下,你可以感受下「眼花缭乱」的程度,各个页面之间的「交互链接」也确实蛮复杂的:

当 AI 开始像人一样用手机

你能看得出来,这个任务比较复杂,提示词如下:

打开快手极速版,画面左上方有个‘红包’功能,点进去就是任务中心,你需要向下滑动,里面有个‘搜索看广告’,点击推荐热词下面的第一个选项的‘去搜索’,帮我看完广告,我要赚金币。

先来看看完整结果(请调低音量~),Step-GUI 确实完成了任务,然后整个过程还是很顺畅的 :

当 AI 开始像人一样用手机

下面这两张图是前后对比,它确实帮我在快手极速版 APP 上赚到了 269 金币

当 AI 开始像人一样用手机

接下来,我们照例看看细节。

我注意到一个非常有趣的点,就是当它在打开快手极速版 APP 的时候,它清楚地意识到「需要等待页面加载完成」:

当 AI 开始像人一样用手机

在打开快手极速版 APP 的任务中心并完成广告任务之后,上面有一行特别小的文字:已成功领取 269 金币,Step-GUI 的后台会立刻识别到这一点,认为:广告任务已经完成:

当 AI 开始像人一样用手机

在另一次看直播广告环节中,我一度以为它卡住了,因为屏幕停在一个直播广告上不动了,我甚至想直接伸手关掉。但看后台日志才发现,它其实是在「等待直播中的一个广告的结束」。 

它识别出了当前的业务状态是「广告播放中」,必须等待倒计时结束或进度条走完。直到广告结束,它才准确点击了关闭按钮,去进行下一个任务。

那一步甚至都把我晃过去了:

当 AI 开始像人一样用手机

在完成这个任务之后,过了段时间,我才想起来,完全可以让 Step-GUI 一口将「赚金币 – 提现 -选择提现方式微信 – 复制粘贴提现链接到微信」一个流程都跑完。

我录了个视频,非常流畅:

当 AI 开始像人一样用手机

就在这个流程走到最后一步的同时,手机就已经收到了这 0.5 元的收款入账:

当 AI 开始像人一样用手机

这次我们用的是 Step-GUI + MCP 的组合,目的其实很直白:就是让 AI 真的像个人一样操作手机,把快手极速版里那套「赚金币 → 提现 → 选微信钱包」 的流程完整跑一遍。

整个过程拆开看,大概就是这么一条线:

打开 App → 等页面加载完 → 找到左上角那个「红包」 → 进任务中心 → 往下滑找任务 → 点进广告流程 → 一个一个把广告看完 → 成功完成任务 → 实际到账金币 → 接着顺着流程直接提现 → 选微信提现 → 钱到账。

从「点红包」到「钱进微信」,这一小段链路已经被完整自动化了。

而且你现在能明显感觉到一件事:Step-GUI 负责动手,高维模型负责动脑,这个分工真的很关键。

有了这个 MCP,GUI Agent 就能从独立工具转变为连接 LLM 与手机应用的桥梁。

而且非常惊喜的是,按照官方指引,我 10 分钟就完成了 GUI-MCP 的部署。也就是说,最快 10 分钟就能拥有豆包手机的同款能力。

看完这些案例,我想聊聊一个很多人最近在争论的话题。

常有人说:「让 AI 去模拟点击屏幕会不会太笨了?直接调 API 或者用 MCP 和 A2A 协议不是更高效吗?最后的效果不仅高效,而且精准。」

但我最近看到一个类比:

地铁确实比汽车高效多了,运载量大、不堵车,那为什么人类还需要汽车?

因为地铁只能去那些铺了铁轨的地方。

API 也是一样,它依赖于 App 开发者给你铺好的「铁轨」。但在现实的世界里,还有海量的软件、网页、甚至是游戏没有 API,有无数临时的弹窗、非标的操作

GUI Agent 就是那辆「越野车」。

它不需要等待开发者铺设铁轨,只要人眼能看到的界面,它就能开过去。它或许不是最快的,但它一定是覆盖范围最广、最能适应这个混乱而真实的数字世界的

这也正是阶跃这次开源 Step-GUI 的意义。目前这个 4B 的模型已经开源在 GitHub 上,API 也已上线,有兴趣的开发者去试一试。

当 AI 开始像人一样用手机

文章来自于“十字路口Crossing”,作者 “镜山”。

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索