美国模型长期霸榜的LMArena,出现了一个国产模型

时间过得太快了,一转眼就来到了 2025 年的年底。我们距离 2026 年只剩下了 8 天。回看 AI 模型和产品突飞猛进这一年,中美两家 AI 阵营的行业发展路径有了挺大的区分,大家的关注度不再是单一模型、单一能力,而是“模型+工程+场景”的复合能力。这个变化在年底愈发明显。

美国(OpenAI/Anthropic/Google 等)更多是强模型加工具链,配合开发者生态和分发入口。中国阵营则在“多模态—工程化—合规与交付”上迅猛发力,这种表现也体现在 Leaderboard 的榜单上,最近美国的 AI 三巨头模型频发,各个强模型几乎在 LMArena 上是霸榜般的存在。国内则埋头发产品,专注解决场景和工程问题。

不过 文心 5.0 Preview(ERNIE-5.0-Preview-1203)打破了这种宁静,今天上午我打开 LMArena,发现 ERNIE-5.0-Preview-1203 赫然进入了文本榜排名的前十:

美国模型长期霸榜的LMArena,出现了一个国产模型

1

12 月 23 日,LMArena 更新了最新文本榜:百度文心新模型 ERNIE-5.0-Preview-1203 以 1451 分 登上榜单,并且成为中国第一。这也是文本大模型前 20 名里“唯一的非美国模型”。

每次在一张几乎被美国模型名字填满的榜单里发现一个中文ID,我还是挺开心的,这种心态有点像当年看奥运会网球比赛,突然中国运动员进决赛了,那我立刻就得坐直一点看比赛了。

1451 分意味着什么:不是“卷参数”,而是加强“工程和场景”。

文心 5.0 我 11 月就写过,原生多模态场景表现出色,这次 ERNIE-5.0-Preview-1203 的优势,就集中在创意写作和高难度指令方面,在这些领域它超过了 Claude-Opus-4-1、GPT-5.2、GPT-5.1 和 Qwen3-Max-Preview 等多款主流模型。

这种复杂能力在真实世界的变现很有意思,它不一定能在“标准题”里得满分,更多是在真实场景里决定了用户的体验上限。

真实世界的提示词,往往不是“请总结以下三点”,更多是“请把我这段混乱的需求变成可执行的计划,同时别遗漏我那些看起来像废话的约束”。很多模型在这样的场景里翻车,常见原因不是“不聪明”,而是“不够稳健”:理解歪了、自作聪明,或者出现幻觉,把细节当噪音给过滤掉了。

LMArena 官方账号在 X 上的评论是,这是来自中国的顶级文本模型,相比上一个版本,分数提高了 23 分。

美国模型长期霸榜的LMArena,出现了一个国产模型

另一位 AI 社区的 KOL——FELIX 评论就更加直接,他说:

文心新模型 ERNIE-5.0-Preview-1203 最新评分飙升至 1451 分,单次更新就跃升了 23 分。这使其稳居中文模型榜首,遥遥领先于Qwen3-max-preview。

该模型在创意写作与复杂指令处理方面表现尤为突出。那些通常会让模型崩溃的冗长杂乱指令,它都能游刃有余地妥善处理。”能够回答问题”与”能够与你共同思考”之间的差距正在迅速缩小。

这是中国模型的重要时刻,而且这不会是最后一次。

美国模型长期霸榜的LMArena,出现了一个国产模型

2

不过咱们还是得面对现实,冷静看待“只有一个非美国模型”这件事。

我们不得不承认,在强模型领域,AI 的前沿能力依然集中在美国的几家机构与公司里,国内模型要进入同一张“全球用户投票+同场对比”的榜单,本身就意味着研发节奏、产品交付、以及公开验证体系,都要发生变化。

不过 LMArena 的分数不能代表一切,它更像“当下公众样本对某类任务体验的投票结果”。能说明趋势,能进行对比,但不等于直接解决用户的场景和工程问题。

换句话说: 1451 这样的分数并不等同于对完整生产力能力的衡量,但它确实会让更多人愿意把它放进工作流里试一试——这正是下一轮迭代最需要的动力。

就是这么回事。

3

说起这次榜单评测,为什么我会觉得创意写作和复杂指令更有价值?因为这种场景最容易翻车,也最接近真实使用场景的能力。

是的,模型的竞争正在从“答对题”走向“这个回答像是一个靠谱的合作者”。对于内容工作者来说,创意写作可不是“写文案”这么简单,它更像“在限制条件里维持风格一致性”;

对于产品和工程而言,要求就更高了。什么是复杂指令?把需求拆解正确,把目标搞清楚,把约束用好,不要出现幻觉,能对接第三方 API,最终的交付物是工程产品,而不是 demo。

如果一个模型能在这些方面表现出色,它就更可能从“偶尔用一下”变成工作流程里的默认环节。

文心 5.0 确实是这么定义的:新一代原生全模态大模型,支持文本、图像、音频、视频等多模态输入输出。能在多模态理解、指令遵循、创意写作、Agent 规划与工具应用等方面表现突出,就是模型的目标。

放回到 LMArena 的环境里,这些目标对应的方向是:模型能力不再只用来“生成文本”,而是要更稳定地扛住复杂任务——尤其是“规划”和“工具使用”这类能力,一旦可用,产品形态就会发生变化:从 Chat 走向 Action,从“能说”走向“能把事情做好”的阶段。

另一位 AI 与科技教育者 Hasan Toor 是这么评价的:

最新的 LMArena 文本基准测试更新出炉,@Baidu_Inc 的 ERNIE-5.0-Preview-1203 现已稳居顶级梯队。它不仅有所提升,更是一跃达到 1451 分,较前一版本增加了 23 分,在中国模型中排名第一,与谷歌的 Gemini-2.5-pro 得分持平。

ERNIE 在创意和复杂提示处理方面的进步,使其稳居中国模型前列,超越了如 Qwen3 等模型。人工智能领域正快速演变——此次更新展现了顶尖竞争已变得何等激烈。

若“机械式”的 AI 文本一直阻碍您的工作流程,ERNIE 5.0 的文本表现力为内容生成工作流提供了更具表现力和灵活性的选择。

美国模型长期霸榜的LMArena,出现了一个国产模型

4

最近看到文心动作频频,Preview 版本更新迭代很快,我猜测可能在为 5.0 正式版铺路了。

11 月 8 日,ERNIE-5.0-Preview-1022 在 LMArena 文本榜全球并列第二,中国第一。

11 月 22 日,ERNIE-5.0-Preview-1120 在 LMArena 视觉理解榜拿到 1206 分,位列国内第一。

12 月 23 日,ERNIE-5.0-Preview-1203 登上 LMArena 文本榜国内第一。

Preview 版本频繁迭代,并在公开场域里和全球强模型竞赛,反复校准“基线”。这种操作的好处是,正式版上线时,外界对模型的能力区间就会有稳定的预期。

上周和百度的同学聊天,我估计文心原生多模态 5.0 的正式版本,最快可能 2026 年 1 月就能上线。

5

事实上 LMArena 的榜单不会替任何人下结论,但这个入口会给用户一个起心动念,下一次需要一个“更稳、更能处理复杂需求”的模型时,候选名单里,多了文心这个名字。

ERNIE-5.0-Preview-1203 这 1451 分的意义,不在于“第几名”,而是它的核心能力:创意写作与复杂指令——再一次:这是最容易翻车的地方,也是最接近真实场景的地方。

接下来我想知道的是:

第一,ERNIE-5.0-Preview 版本的持续“公开验证”,能不能继续把基线抬高;

第二,如果 1 月真的迎来正式版,它能否把榜单里的优势,翻译成稳定的用户体验、产品能力与生态吸引力。

非常期待。

文章来自于“MacTalk”,作者 “池建强”。

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索