MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

聪明是起点,能干才是生产力

10 月 27 日,国产「好模型」阵营又迎来一位新成员,MiniMax 发布了全新大版本模型 M2,延续了 M1 时代的开源策略。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

它不仅在 Coding 与 Agent 能力等方面继承了 M1 的优势,更在成本效率、智能水平、响应延迟这 3项关键指标上,同时迈出了一大步。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

这次更新,也同时引发了一个更深层的讨论:

什么样的模型才能真正支撑实际业务?模型能否稳定运行?响应是否敏捷?能否真正嵌入业务、持续创造价值?

换句话说,模型的评判标准,正在走向新的「生产基准」:智能、便宜、体验好。

无论是跑 B 端业务的创业团队,还是依靠 AI 搭建产品的超级个体,大家都在一堆 SOTA 模型中寻找那个「用起来聪明、跑起来稳当可靠」的生产力模型。

而这次的 MiniMax M2,正是在这样的背景下被推出。

接下来,分享我们对这款模型背后技术逻辑的理解与实测体验。看一看,在「生产力模型」中,MiniMax M2 到底站在了哪个位置?

SOTA 模型里,我们到底需要怎样的「生产力模型」?

在 AI 应用下半场,我们到底需要怎样的「生产力模型」?

【1】第一个显而易见的就是「成本」。

最近非常流行的一个词 —— Token 经济。随着 AI Agent 的普及,每个任务对应的总成本往往会超过百万、千万级 Token,例如,我们曾在《在花花世界和孤注一掷之间,纳米AI的选择是……》中,随意做一个任务就达到了这个 Level。

Token 的成本越来越重要。

【2】第二个是「体验」。

对于 B 端、超级个体开发者用户来说,这里还有另一个痛点:延迟。在 C 端交互式应用中,TTFT(Time to First Token,首字响应时间),对于拉高用户体验有很大的作用。

这里也有个很好的例子,我们曾在《别小看这只龙猫》一文中,深刻体会到了美团的龙猫大模型如何靠「首个 Token 速度」,在垂直场景里提供良好体验的。

所以,总的看来,当下的 AI 应用落地,往往被困在智能、成本、体验,这个「三角」中。用户渴望一个「既要(顶级智能)、又要(价格便宜)、还要(体验够顺)」的解决方案

而在阅读 MiniMax M2 的 Model Card 之后,我们发现,它在这 3 个方面,同时前进,并且获得了超出预期的成绩。

拆解 MiniMax M2

1)智能、成本、体验的三角

过去,我们的认知是「智能=昂贵」,而 M2 的出现,让这个观点再次被动摇了。

先上「干货」:MiniMax M2 一登场,就在全球权威测评榜单 Artificial Analysis (AA) 中表现很好,总分位列全球前 5、国内第 1

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

这套评测体系全面覆盖了模型在数学、科学与编码等多个核心领域的能力。

值得注意的是 M2 的得分超过了 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 4.1 等最新的 SOTA 模型。

这证明了其智能水平已稳居「第一梯队」。

同时,作为国产模型的经典优势之处在于它的价格。在实现顶级智能的同时,M2 的价格具有非常大的优势($0.53/M Tokens,API 服务价格定在每百万 Token $0.3/2.1 元 (输入),$1.2/8.4 元(输出)

这是什么概念?其综合成本不到 GPT-5 (high) 的六分之一,并且不到 Claude 4.5 Sonnet 的十分之一(大概为 8 %)。

其次,M2 在保持极低成本的同时,实现高流畅度的用户体验,推理速度则是 Claude Sonnet 近 2 倍。

这主要在于,我看到了 2 个关键数据:1.10 秒的首字响应时间(TTFT),100 TPS(Tokens Per Second):

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

TTFT 和 TPS 往往被用来衡量交互式 AI 体验,它们决定了用户是否「体感」卡顿。M2 的低延迟确保了应用(特别是对话类、编程类应用)的流畅性,而这还是在极低的运营成本下实现的。

2)Coding、Agentic、Deep Search 能力再度被加强

如果说「综合实力」是 M2 进入第一梯队的入场券,那么它在特定领域的「专精」则是这回发布的真正看点。

这回的 M2 专为 3 个生产力核心场景进行了深度优化:Coding、Agentic、DeepSearch。

我们一一来看。

Coding

Coding 能力目前是开发者最刚需的生产力工具,也是最看重的基准测试之一。

M2 在编程能力(LiveCodeBench)上表现同样不错(83%,排名第4),接近 SOTA 模型水平。

M2 现在在软件工程与自动化任务的 4 个重要基准测试中,同样取得了很不错的表现,尤其是在 ArtifactsBench 这种衡量「项目产物」的测试中:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

对于企业内开发者和超级个体开发者而言,结合其低延迟和低成本,开发者可以无压力地将其集成到自己的开发流中,去提升编码效率。

这里我测试了一个小案例,也是开发者们最喜欢用来验证新模型生成力的经典场景,3D 粒子星系效果

提示词:

创建一个沉浸式的三维粒子星系,包含旋转的星云与动态变色的光效。 场景中应有数百万颗发光粒子,形成缓慢旋转与脉动的螺旋臂,营造出宇宙运动的幻觉。 加入体积雾与空间深度效果,以呈现一个充满尘埃、气体与能量的广袤星际空间。 使用紫罗兰、青色、品红与金色的渐变色调,模拟星云的湍流变化。 摄像机应在场景中缓缓移动,揭示星团、星光闪烁与微妙的镜头光晕。 灯光应能随摄像机运动而动态变化,强化空间的尺度感与深邃感。 可选地添加柔和的环境音乐或程序化的背景嗡鸣声,以增强沉浸感。 整体需针对实时渲染进行优化,使用来自 CDN 的 Three.js,在一个独立、可直接运行的 HTML 文件中实现。

M2 第一次给出的结果就还不错:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

增加点复杂度,我将粒子数改为 20 万,并且将所有粒子的展现形态都换为香蕉:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

甚至可以更复杂点,由香蕉、橙子、西瓜、苹果组成的水果银河系:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

Agentic

模型的 Agentic 能力越来越被基础模型厂商重视,它关乎模型理解复杂指令、调用工具、执行多步骤任务的能力。

而这正是 M2 此回重点升级的部分。

在(τ²-Bench Telecom)榜单上,M2 的 Agent 工具使用能力得分高达 87%,排名全球第 2,与 GPT-5 并列,仅略低于 GPT-5 Codex

而在 τ²-Bench 和 GAIA (Text Only)测试中,M2 基本达到了「御三家」的程度:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

τ²-Bench 这个基准测试成绩很重要,但是很多同学可能并不熟悉。τ²-Bench 主要就是考察模型在多维逻辑(Multi-dimensional reasoning)、时间线推理(Temporal reasoning)与主题一致性(Thematic coherence)上的推理能力

说白了,就是模型在「模拟人脑思维过程」,例如推断事件因果、顺序、并行逻辑、隐含条件时的表现。

能看得出来,M2 的 77.2 分表现已经很不错了。

再结合其在指令遵循能力(IFBench)上的高分(72%,排名第 3),这意味着 M2 不仅「听得懂人话」,还能「用得好工具」,毕竟听懂用户的提示词和工作流节点的含义,使其成为构建复杂 AI 工作流的基础。

这里我们试试,让 M2 进行可视化的 Agentic 能力,提示词如下:

MiniMax M2 信息可视化: 生成一个HTML网页来可视化关于MiniMax M2模型的内容,特别是关于其Agentic、Coding、Deep Search能力的内容。 文章内容包括:  M2模型在三个核心生产力场景的深度优化:Coding、Agentic、DeepSearch 具体的能力表现数据 基准测试成绩对比 创建一个视觉效果好的HTML页面来展示这些信息,包括:  现代化设计 数据可视化(图表、进度条等) 响应式布局 美观的UI 可能包括图表来显示测试成绩 创建一个专业的技术报告样式的页面,包含各种可视化元素。

我录制了一个视频,M2 给出的结果非常协调。

注意,这只是 M2 一次输出就得出来的结果:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

Deep Search

最后,是Deep Search(深度搜索)能力。这一点经常被忽视,但它是支撑 Agent 在复杂长程任务中表现的基础。

简单点说就是,Deep Search 能力关乎模型在面对开放性问题时,如何自主进行信息的深度检索、筛选、推理和总结。

它需要模型能在海量信息(比如 MiniMax-M1 就已支持的 1M 超长上下文)中进行「有目的」的探索,而不是简单的信息匹配。

在 Deep Search 这一能力相关基准测试中,我看到 MiniMax 透露出来了 3 个任务基准:BrowseComp(网页浏览理解)、xBench-DeepSearch(深度检索推理)、FinSearchComp-global(金融检索分析)。

在这 3 个基准测试中,M2 基本上追平或者反超了 GPT-5:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

可以说,M2 在 Deep Search 能力中,基本进入了第一梯队。过去国产模型多在文本生成上竞争,现在 MiniMax 能在「复杂信息检索与推理」中与 GPT-5、Claude 这类 SOTA 模型并列,说明强化学习(RL)与推理优化的策略,正在奏效。

进一步观察 M2 的 Deep Search 能力,我想到了一个比较好的案例:自行去查找信息,再进行整合,用 PPT 整理出来:

使用 Search 功能 查询并整理 GitHub 上主流开源 AI 视频生成模型的使用方法与示例代码,并做成Html格式PPT展示。

M2 给出的结果是这样的:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

自动检索并汇总了当前 GitHub 上主流的 AI 视频生成模型资料,包括模型简介、开源协议、应用场景与特色功能,页面结构很清晰。

示例代码部分,M2 是这样做整理的:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

它会为每个模型生成独立的 code block,并附带运行环境说明(如 Python 版本、依赖库、GPU 需求)。整体来看,M2 的输出很像是一份「可直接演示的技术报告模板」。

除了直接玩模型,我在进入 MiniMax 官网时,注意到 M2 已经上线了 MiniMax Agent。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

现在,MiniMax Agent 分为 2 个模式:高效和专业,目前都是免费。

我就顺手跑了一个一直都想做的案例,一个探探 APP 式的 AI 人才匹配平台,提示词如下:

设计一个「AI 人才匹配平台」,界面灵感来自「探探 / Tinder」式卡片滑动。 用户横屏滑动即可浏览候选人资料卡,每张卡上展示 AI 评分(能力、匹配度、经验值等);点击卡片后,它会以 3D 动画翻转,显示候选人的完整简历,包括教育背景、技能标签、作品集链接等。  画面风格:未来感科技UI、半透明玻璃质感(Glassmorphism)、蓝紫色渐变背景、轻微景深虚化。 交互设计:流畅的弹性过渡动画、卡片滑动轨迹、底部操作按钮(跳过 / 收藏 / 联系)。 细节增强:  顶部栏显示 Logo + “AI 匹配指数”仪表盘  每张卡包含候选人头像、职位、AI 综合评分  卡片背面展示详细履历结构  屏幕边缘浮现 AI 推荐语句,如「该候选人与贵司算法岗位高度匹配」  加入轻音乐、滑动音效或AI语音旁白(可选)

M2 加持的 MiniMax Agent 在工作流上的体验提升非常直观,整个执行过程更流畅,尤其是在与我交互时几乎没有明显卡顿。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

整体端到端的任务完成速度更快了些。

AI 人才匹配探探大概 5 到 10 分钟就能跑完,页面显得相当成熟。每个人才卡片都会展示头像、姓名、职位,以及由 AI 给出的综合评分,甚至还会附上几项代表性的技能关键词。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

当我点击这些卡片时,它们会轻轻翻转,呈现出候选人的完整简历。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

当然了,看完整份简历后,这个原型会提供三个交互选项:我可以跳过、不喜欢,也可以表示很喜欢,或者直接收藏。

而在简历里,还能看到一个完整的作品集,可以直接点击跳转。我也录制了一个完整的视频来展示这个过程。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

这样的「高性价比」并不是牺牲原创技术换来的。其实在 M2 发布前几天,我们就已经在各大技术社区看到了相关信息的「泄露」。

不少开发者都提到同一篇论文,来自硅谷大厂 Meta 的《The Art of Scaling Reinforcement Learning Compute for LLMs》。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

在这篇论文中,Meta 直接在 Intro 部分提到:MiniMax 的研究是近期强化学习(RL)突破的代表之一:

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

而且,Meta 提到他们在超过 40 万 GPU 小时的实验中,采用了 MiniMax 提出的 CISPO 损失函数和 FP32 Head 技术。

两个技术(CISPO 损失函数 和 FP32 Head 技术)其实是 MiniMax 在强化学习(RL)阶段中提出的关键创新点,目标是让模型在「大规模训练」中更稳、更准、更具泛化能力

简单说就是:这 2 项技术让 MiniMax M2 在同等算力下,能「跑得更稳、学得更深、用得更顺」。

论文里,Meta 明确指出 FP32 Head 是「最关键的实验决策之一」,并称 CISPO 是「大规模训练中最合适的方案」。这说明,MiniMax 的创新正在被全球顶级研究机构吸收和验证。

MiniMax 迎来大版本号升级:M2 突袭榜单 + 限免,我们第一时间为你评测

虽然最近 Meta 在 AI 领域的表现有点「颓」,但它的技术嗅觉依然敏锐。

从一次次实测的结果和论文的解析来看,M2 不仅是一款「性价比高」的模型,更像是进入 AI 应用下半场后的一种新范式:

稳、快、懂上下文、能执行。

这或许才是属于「生产力模型」的底层逻辑。

最后,强烈推荐大家亲自去 Claude Code、Cursor 等开发环境里跑一跑 M2。

以上所有 M2 的实测内容,其实都是我在 MiniMax 开放平台上看到 MiniMax-M2 API 全球限时免费开放后,用 Cherry Studio 上接 M2 的 API 完成的,整个过程非常顺滑,几乎没有出现任何兼容性问题。

而且,目前 MiniMax Agent 也在限时免费开放。

如果你也在做 Agent、Coding、Deep Search 的真实业务,不妨把它们跑起来吧!

文章来自于微信公众号 “十字路口Crossing”,作者 “十字路口Crossing”

搜索