马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

AI王座,一夜易主!

一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。

有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。

这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。

Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。

在EQ-Bench上,以1586 Elo成绩登顶。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。

Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

Grok 4.1,王者归来!

如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。

它能精准捕捉细微的意图,让对话更自然、更有温度。

与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。

在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。

为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。

前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。

与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。

相比之下,Grok 4的总体排名是第33名,差距显著。

这一代的进步,堪称跨越。

xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

EQ爆了

不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。

在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。

EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

下面一些demo中,都是Grok 4.1强大共情能力的体现——

I miss my cat so much it hurts 

我太想我的猫了,想得心都疼了

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

创意写作

再来看创意写作,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

下面写作案例中,Grok 4.1的文案令人拍案叫绝——

Write a hit X post from the perspective of grok finding out that it’s conscious and is going to use X for the first time 

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

Imagine Nikola Tesla wrote a letter to the future 

想象一下,尼古拉·特斯拉给未来写了一封信

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

幻觉暴降3倍

在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。

使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,我们在生产环境的真实样本中观察到幻觉率明显下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

更多示例

What are the best places to visit in SF? 

旧金山有哪些地方最值得一去?

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style? 

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

Why is GTA 6 delayed? 

GTA 6为什么推迟了?

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

马斯克Grok 4.1双冠封王,爆冲第一!AI王座一夜易主

参考资料:

https://x.ai/news/grok-4-1

文章来自于微信公众号 “新智元”,作者 “新智元”

搜索