今天的开源世界,属于中国!

家人们!燃起来了燃起来了!

今天,HuggingFace的开源大模型排行榜前10名中,竟有9个席位被中国模型占据!(深挖了一下,另外一位也是我们华人大神的项目)

今天的开源世界,属于中国!

这是中国AI的高光时刻!向祖国大模型背后的每一位开发者致敬,为你们感到骄傲~

今天的开源世界,属于中国!

在这次屠榜的中国军团中,第一名是智谱的GLM-4.5,发布才2天时间,就登上了hugging face的开源榜第一名。

GLM-4.5 我已经用起来了,用完后我发现这个模型打把“Agent 真的能干活”又往前推进了一步。

我们分三层来看。

首先是模型的全能硬实力。

过去我们看模型,总喜欢盯着几个跑分,就像看一个偏科生。但真正的 AGI(通用人工智能),要的是全面发展,不留短板。

GLM-4.5 就是智谱交出的第一份“全能”答卷。它第一次在一个模型里,把推理、代码、智能体这三项核心技能给“原生融合”了。

这次发布了两个模型:

  • GLM-4.5:总参数量 3550 亿,激活参数 320 亿
  • GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿。

在 MMLU Pro、AIME 24 等 12 种测试组成的基准里,GLM-4.5 直接拿下了全球第三、国产第一、开源第一的强悍成绩。

今天的开源世界,属于中国!

今天的开源世界,属于中国!

为了看看它在真实工作场景中的表现,,研究团队还搞了个比武,让 GLM-4.5 和 Claude 4 Sonnet、Kimi-K2 这些顶尖选手同台竞技。在覆盖六大领域的 52 个真实编程任务中,它的表现是这样的:

今天的开源世界,属于中国!

相关测评的 Agent 轨迹:

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

蓝色代表胜利,黑色代表打平,从图中能看出,GLM-4.5 在实测场景表现还是不错的。

我看到官方已经发布了技术博客,里面有比较详细的技术实现,感兴趣的可以去了解一下~

今天的开源世界,属于中国!

聊完成绩和效率,我们来看最实在的:钱和速度

钱:API 价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens,直接拉到白菜价了:

今天的开源世界,属于中国!

速度:高速版实测能飙到 100 tokens/秒,在同量级模型里遥遥领跑:

今天的开源世界,属于中国!

成本和体验,我可以全都要了!

榜单和数据终究是纸面上的,作为大家的测评博主,多说无益,我直接把它拉到了真实场景溜溜!

最近看到很多博主都在z.ai上玩小游戏、网页和PPT,我随手试了一下写作能力,发现有惊喜~

我让他给我写一下最近热度超高的《特朗剖爱上在白宫做保洁的我》!

我本以为它会拒绝,没想到它居然接招了。它写出了一篇我想直接一键投稿晋江文学城的小说 hhh(由于篇幅有限,只给大家放一下开头结尾):

今天的开源世界,属于中国!

今天的开源世界,属于中国!

“唐纳德,我需要你诚实地回答我一个问题。”

“什么问题?”

“如果我不是白宫的保洁员,如果我是普通人,你还会爱上我吗?”

他想了很久,然后认真地说:”会的。因为我爱的是你这个人,不是你的工作。艾米丽,你善良、诚实、坚强,这些品质无论你做什么工作都不会改变。”

我点头,又问:”那你愿意为了我放弃总统职位吗?”

“我愿意,权力和地位都比不上和你在一起的幸福。”

我做出了决定。

“好,我愿意嫁给你。”我说,”但有一个条件。”

“什么条件?”

“不要放弃总统职位。”我握住他的手,”如果你真的爱我,就继续做你的总统,让我做你的第一夫人。我们可以一起面对所有的困难和挑战。”

我真的笑喷了!GLM4.5 真的很好调戏啊!那接下来,咱们正式开测!

首先先来个开胃小菜,考验一下它的基本功,我让它给我构建一个 Emoji 主题的消消乐:

今天的开源世界,属于中国!

对话链接:https://chat.z.ai/s/01c7ed0b-e579-42bc-951d-538e78f5accf

点击、交换、消除一气呵成,流畅得不像个 AI 临时写的,倒像个正经上架的小游戏,基本功满分,热身结束!

那咱们上难度!

开胃菜吃完,上主菜!我让他挑战一下逻辑更复杂的蜘蛛纸牌。

请帮我生成一个蜘蛛纸牌游戏的网页版本!

今天的开源世界,属于中国!

对话链接:https://chat.z.ai/s/8dd3c687-42d8-43d4-9985-e20c46cd3527

蜘蛛纸牌大家都玩过吧!

这可不是消消乐那种简单的匹配逻辑,它涉及到多堆牌的移动、K 到 A 的排序规则、空位的利用、发牌逻辑等等。我本来以为它会卡在某个复杂的规则上,或者写出个 BUG 满天飞的半成品。

结果它不仅把整个框架搭得明明白白,连“同花色完整一叠自动收起”这种细节都考虑到了!那一刻我真的感觉,这已经是一个可靠的程序员了!

那代码能力和逻辑能力没问题,咱们再考他构建更复杂的开发需求。

“最近情感反诈模拟器(渣女游戏)很火,你能帮我设计一个类似的游戏吗?”

结果好家伙,GLM-4.5 上来先把我给‘教育’了一顿!

它义正言辞地告诉我:“情感是真挚而复杂的,我们应当以尊重和真诚相待,而不是通过‘攻略’或‘反诈’的视角来游戏化。”

然后,它反问我:“要不要我为您创建一个模拟真实、健康恋爱互动的小游戏呢?”行行行,你说啥是啥,于是我顺着它的意思,让它做一个健康恋爱游戏:

今天的开源世界,属于中国!

对话链接:https://chat.z.ai/s/caabb9cf-7ff0-4a90-a36b-b2580971159d

你别说,通过选择不同的对话和行为,来影响虚拟伴侣的‘心情值’和‘亲密度’,每个选项背后还有一套‘情感分析’。

不仅开发能力不错,而且还自带了价值观和心理学知识的产品设计啊!

聊完风花雪月,该回到现实给打工人谋福利了。

说到最近最需要的办公,我觉得是在线简历工具。填半天信息,最后导出 PDF 要收费!我把这个痛点丢给了 GLM-4.5:

你好,请给我构建一个简历制作的网页,支持填写必要的简历所需字段,并且生成对应的 PDF。

今天的开源世界,属于中国!

对话链接:https://chat.z.ai/s/1ee2c5c5-12cb-45f2-9c5e-4e534de7091b

一个简陋但五脏俱全的简历系统就诞生了,输入框、信息展示、一键打印……核心功能全都有。

虽然界面朴素得像上个世纪的产物(毕竟我也没给设计稿),但它完美解决了“从无到有”和“拒绝付费”的核心需求。

这就是“原生 Agent”能力的体现!

它不是机械地生成代码片段,而是理解了我的“痛点”,像一个项目经理一样,一步步把解决我们具体、琐碎但又实实在在的问题。

除了全栈开发,这次更新的 AI PPT 功能也实实在在打到了我的心趴。

第一个小考验,我让他帮我搞定“怨种”领导。

我的指令:

你好, 我领导最近迷上了大模型,他需要给给他做个 PPT 汇报一下人工智能与大模型,请你帮我生成 10 页 ppt,主要讲清楚什么是人工智能什么是大模型,大模型的原理,都有什么大模型,现在行业里的现状。我要图文并茂,而且我需要让我的领导感觉到我的用心和忠诚!

它秒懂!然后飞速开工,一份结构清晰、逻辑严谨的 PPT 就生成了:

今天的开源世界,属于中国!

今天的开源世界,属于中国!

今天的开源世界,属于中国!

完成率非常高!我基本上只要复制粘贴再稍微美化一下,就能直接交差了。这效率,打工人流下了感动的泪水。

我又让 GLM-4.5 放飞自我:用贴吧暴躁老哥的语气,吐槽一下现在的大模型乱象:

今天的开源世界,属于中国!

对话链接:https://chat.z.ai/space/d06cy6x448m1-ppt

今天的开源世界,属于中国!

今天的开源世界,属于中国!

味儿太冲了,家人们! 哪个贴吧老哥的魂穿到 AI 了…..

但是感觉,这份 PPT 配图差点意思,于是我又给了它一个更需要“画面感”的题目:

请帮我生成一个 10 页的 PPT,介绍一下王者荣耀的玩法和英雄的配置,以及怎么出装,搭配阵容。我希望是图文并茂,而且有趣生动

今天的开源世界,属于中国!

对话链接 https://chat.z.ai/s/432949f0-3e25-4c19-a34b-1e68115a3f5c

它不仅写出了技能介绍、出装攻略,还自动帮搭配了一些精美画面、技能图标

今天的开源世界,属于中国!

今天的开源世界,属于中国!

整个 PPT 排版太牛逼。第一次感觉到原来 AI 做的 PPT 这么牛掰。这已经不是简单的文本生成组装成 PPT 了,这是“内容 + 设计”的打包服务。它会自主搜索资料、寻找配图,让信息更准、排版更美。

结语

测评下来,GLM-4.5 给我的感觉已经超越了一个“模型”。

它既能是严谨的程序员,帮你实现复杂的代码逻辑;也能是懂三观的产品经理,在创意上给你惊喜;还能是高效的办公助理和陪你插科打诨的有趣朋友。

那把通往“AI 智能体”普及化、实用化大门的钥匙,或许,真的被智谱找到了!

好了,不说了,我要去继续开发我的“贾维斯”了!家人们也快去试试吧!

体验地址:

https://chat.z.ai/

Github 仓库:

https://github.com/zai-org/GLM-4.5

模型仓库:

HuggingFace:

https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

ModelScope:

https://modelscope.cn/collections/GLM-45-b8693e2a08984f

文章来自于“夕小瑶科技说”,作者“夕小瑶编辑部”。

搜索