MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

聪明是起点，能干才是生产力

10 月 27 日，国产「好模型」阵营又迎来一位新成员，MiniMax 发布了全新大版本模型 M2，延续了 M1 时代的开源策略。

它不仅在 Coding 与 Agent 能力等方面继承了 M1 的优势，更在成本效率、智能水平、响应延迟这 3项关键指标上，同时迈出了一大步。

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

这次更新，也同时引发了一个更深层的讨论：

什么样的模型才能真正支撑实际业务？模型能否稳定运行？响应是否敏捷？能否真正嵌入业务、持续创造价值？

换句话说，模型的评判标准，正在走向新的「生产基准」：智能、便宜、体验好。

无论是跑 B 端业务的创业团队，还是依靠 AI 搭建产品的超级个体，大家都在一堆 SOTA 模型中寻找那个「用起来聪明、跑起来稳当可靠」的生产力模型。

而这次的 MiniMax M2，正是在这样的背景下被推出。

接下来，分享我们对这款模型背后技术逻辑的理解与实测体验。看一看，在「生产力模型」中，MiniMax M2 到底站在了哪个位置？

SOTA 模型里，我们到底需要怎样的「生产力模型」？

在 AI 应用下半场，我们到底需要怎样的「生产力模型」？

【1】第一个显而易见的就是「成本」。

最近非常流行的一个词 —— Token 经济。随着 AI Agent 的普及，每个任务对应的总成本往往会超过百万、千万级 Token，例如，我们曾在《在花花世界和孤注一掷之间，纳米AI的选择是……》中，随意做一个任务就达到了这个 Level。

Token 的成本越来越重要。

【2】第二个是「体验」。

对于 B 端、超级个体开发者用户来说，这里还有另一个痛点：延迟。在 C 端交互式应用中，TTFT（Time to First Token，首字响应时间），对于拉高用户体验有很大的作用。

这里也有个很好的例子，我们曾在《别小看这只龙猫》一文中，深刻体会到了美团的龙猫大模型如何靠「首个 Token 速度」，在垂直场景里提供良好体验的。

所以，总的看来，当下的 AI 应用落地，往往被困在智能、成本、体验，这个「三角」中。用户渴望一个「既要（顶级智能）、又要（价格便宜）、还要（体验够顺）」的解决方案。

而在阅读 MiniMax M2 的 Model Card 之后，我们发现，它在这 3 个方面，同时前进，并且获得了超出预期的成绩。

拆解 MiniMax M2

1）智能、成本、体验的三角

过去，我们的认知是「智能=昂贵」，而 M2 的出现，让这个观点再次被动摇了。

先上「干货」：MiniMax M2 一登场，就在全球权威测评榜单 Artificial Analysis (AA) 中表现很好，总分位列全球前 5、国内第 1。

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

这套评测体系全面覆盖了模型在数学、科学与编码等多个核心领域的能力。

值得注意的是 M2 的得分超过了 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 4.1 等最新的 SOTA 模型。

这证明了其智能水平已稳居「第一梯队」。

同时，作为国产模型的经典优势之处在于它的价格。在实现顶级智能的同时，M2 的价格具有非常大的优势（$0.53/M Tokens），API 服务价格定在每百万 Token $0.3/2.1 元 (输入)，$1.2/8.4 元(输出)。

这是什么概念？其综合成本不到 GPT-5 (high) 的六分之一，并且不到 Claude 4.5 Sonnet 的十分之一（大概为 8 %）。

其次，M2 在保持极低成本的同时，实现高流畅度的用户体验，推理速度则是 Claude Sonnet 近 2 倍。

这主要在于，我看到了 2 个关键数据：1.10 秒的首字响应时间（TTFT），100 TPS（Tokens Per Second）：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

TTFT 和 TPS 往往被用来衡量交互式 AI 体验，它们决定了用户是否「体感」卡顿。M2 的低延迟确保了应用（特别是对话类、编程类应用）的流畅性，而这还是在极低的运营成本下实现的。

2）Coding、Agentic、Deep Search 能力再度被加强

如果说「综合实力」是 M2 进入第一梯队的入场券，那么它在特定领域的「专精」则是这回发布的真正看点。

这回的 M2 专为 3 个生产力核心场景进行了深度优化：Coding、Agentic、DeepSearch。

我们一一来看。

Coding

Coding 能力目前是开发者最刚需的生产力工具，也是最看重的基准测试之一。

M2 在编程能力（LiveCodeBench）上表现同样不错（83%，排名第4），接近 SOTA 模型水平。

M2 现在在软件工程与自动化任务的 4 个重要基准测试中，同样取得了很不错的表现，尤其是在 ArtifactsBench 这种衡量「项目产物」的测试中：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

对于企业内开发者和超级个体开发者而言，结合其低延迟和低成本，开发者可以无压力地将其集成到自己的开发流中，去提升编码效率。

这里我测试了一个小案例，也是开发者们最喜欢用来验证新模型生成力的经典场景，3D 粒子星系效果。

提示词：

创建一个沉浸式的三维粒子星系，包含旋转的星云与动态变色的光效。 场景中应有数百万颗发光粒子，形成缓慢旋转与脉动的螺旋臂，营造出宇宙运动的幻觉。 加入体积雾与空间深度效果，以呈现一个充满尘埃、气体与能量的广袤星际空间。 使用紫罗兰、青色、品红与金色的渐变色调，模拟星云的湍流变化。 摄像机应在场景中缓缓移动，揭示星团、星光闪烁与微妙的镜头光晕。 灯光应能随摄像机运动而动态变化，强化空间的尺度感与深邃感。 可选地添加柔和的环境音乐或程序化的背景嗡鸣声，以增强沉浸感。 整体需针对实时渲染进行优化，使用来自 CDN 的 Three.js，在一个独立、可直接运行的 HTML 文件中实现。

M2 第一次给出的结果就还不错：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

增加点复杂度，我将粒子数改为 20 万，并且将所有粒子的展现形态都换为香蕉：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

甚至可以更复杂点，由香蕉、橙子、西瓜、苹果组成的水果银河系：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

Agentic

模型的 Agentic 能力越来越被基础模型厂商重视，它关乎模型理解复杂指令、调用工具、执行多步骤任务的能力。

而这正是 M2 此回重点升级的部分。

在（τ²-Bench Telecom）榜单上，M2 的 Agent 工具使用能力得分高达 87%，排名全球第 2，与 GPT-5 并列，仅略低于 GPT-5 Codex。

而在 τ²-Bench 和 GAIA （Text Only）测试中，M2 基本达到了「御三家」的程度：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

τ²-Bench 这个基准测试成绩很重要，但是很多同学可能并不熟悉。τ²-Bench 主要就是考察模型在多维逻辑（Multi-dimensional reasoning）、时间线推理（Temporal reasoning）与主题一致性（Thematic coherence）上的推理能力。

说白了，就是模型在「模拟人脑思维过程」，例如推断事件因果、顺序、并行逻辑、隐含条件时的表现。

能看得出来，M2 的 77.2 分表现已经很不错了。

再结合其在指令遵循能力（IFBench）上的高分（72%，排名第 3），这意味着 M2 不仅「听得懂人话」，还能「用得好工具」，毕竟听懂用户的提示词和工作流节点的含义，使其成为构建复杂 AI 工作流的基础。

这里我们试试，让 M2 进行可视化的 Agentic 能力，提示词如下：

MiniMax M2 信息可视化：生成一个HTML网页来可视化关于MiniMax M2模型的内容，特别是关于其Agentic、Coding、Deep Search能力的内容。文章内容包括： M2模型在三个核心生产力场景的深度优化：Coding、Agentic、DeepSearch 具体的能力表现数据基准测试成绩对比创建一个视觉效果好的HTML页面来展示这些信息，包括：现代化设计数据可视化（图表、进度条等）响应式布局美观的UI 可能包括图表来显示测试成绩创建一个专业的技术报告样式的页面，包含各种可视化元素。

我录制了一个视频，M2 给出的结果非常协调。

注意，这只是 M2 一次输出就得出来的结果：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

Deep Search

最后，是Deep Search（深度搜索）能力。这一点经常被忽视，但它是支撑 Agent 在复杂长程任务中表现的基础。

简单点说就是，Deep Search 能力关乎模型在面对开放性问题时，如何自主进行信息的深度检索、筛选、推理和总结。

它需要模型能在海量信息（比如 MiniMax-M1 就已支持的 1M 超长上下文）中进行「有目的」的探索，而不是简单的信息匹配。

在 Deep Search 这一能力相关基准测试中，我看到 MiniMax 透露出来了 3 个任务基准：BrowseComp（网页浏览理解）、xBench-DeepSearch（深度检索推理）、FinSearchComp-global（金融检索分析）。

在这 3 个基准测试中，M2 基本上追平或者反超了 GPT-5:

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

可以说，M2 在 Deep Search 能力中，基本进入了第一梯队。过去国产模型多在文本生成上竞争，现在 MiniMax 能在「复杂信息检索与推理」中与 GPT-5、Claude 这类 SOTA 模型并列，说明强化学习（RL）与推理优化的策略，正在奏效。

进一步观察 M2 的 Deep Search 能力，我想到了一个比较好的案例：自行去查找信息，再进行整合，用 PPT 整理出来：

使用 Search 功能查询并整理 GitHub 上主流开源 AI 视频生成模型的使用方法与示例代码，并做成Html格式PPT展示。

M2 给出的结果是这样的：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

它自动检索并汇总了当前 GitHub 上主流的 AI 视频生成模型资料，包括模型简介、开源协议、应用场景与特色功能，页面结构很清晰。

示例代码部分，M2 是这样做整理的：

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

它会为每个模型生成独立的 code block，并附带运行环境说明（如 Python 版本、依赖库、GPU 需求）。整体来看，M2 的输出很像是一份「可直接演示的技术报告模板」。

除了直接玩模型，我在进入 MiniMax 官网时，注意到 M2 已经上线了 MiniMax Agent。

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测

现在，MiniMax Agent 分为 2 个模式：高效和专业，目前都是免费。

我就顺手跑了一个一直都想做的案例，一个探探 APP 式的 AI 人才匹配平台，提示词如下：

设计一个「AI 人才匹配平台」，界面灵感来自「探探 / Tinder」式卡片滑动。用户横屏滑动即可浏览候选人资料卡，每张卡上展示 AI 评分（能力、匹配度、经验值等）；点击卡片后，它会以 3D 动画翻转，显示候选人的完整简历，包括教育背景、技能标签、作品集链接等。画面风格：未来感科技UI、半透明玻璃质感（Glassmorphism）、蓝紫色渐变背景、轻微景深虚化。交互设计：流畅的弹性过渡动画、卡片滑动轨迹、底部操作按钮（跳过 / 收藏 / 联系）。细节增强：顶部栏显示 Logo + “AI 匹配指数”仪表盘每张卡包含候选人头像、职位、AI 综合评分卡片背面展示详细履历结构屏幕边缘浮现 AI 推荐语句，如「该候选人与贵司算法岗位高度匹配」加入轻音乐、滑动音效或AI语音旁白（可选）

M2 加持的 MiniMax Agent 在工作流上的体验提升非常直观，整个执行过程更流畅，尤其是在与我交互时几乎没有明显卡顿。

MiniMax 迎来大版本号升级：M2 突袭榜单 + 限免，我们第一时间为你评测