最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

大家好,我是袋鼠帝

今天咱们再聊聊TTS(文本转语音)这个话题。

4月份给大家分享了MiniMax的TTS平台:MiniMax Audio

当时我直呼它是最强中文TTS,那篇反响还不错,主要他们Speech-02-HD的效果确实NB

感兴趣的朋友可以看看(点击下图跳转),看过了的朋友也可以复习一下😄

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

而且Speech-02-HD在这两个基准(Artificial Analysis Speech Arena、Hugging Face TTS Arena)上,都拿下了全球第一

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

我一直是他们海外版(MiniMax Audio)的忠实用户

毕竟新功能、新模型总是那边先上。

但就在前几天,我打开了MiniMax Audio国内版

某度直接搜minimax,点击右下角那个语音大模型

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

进去之后,就是国内版:MiniMax语音

www.minimaxi.com/audio

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

终于,国内版的界面和功能,跟海外版看齐了~

目前除了声音克隆功能还是只能在海外平台用,其他核心体验已经完全拉平。

下图是4月份的国内版和国外版截图对比,可以看到那时候国内版页面功能都比海外版差了一大截,这也是我为什么一直推荐大家用海外版的原因

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

登录进国内版MiniMax语音,就弹出了下图这个框

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

让我想起MiniMax 6月底的那个连续5天的发布周

每天一个重磅更新,而压轴发布的,正是Voice Design(音色设计)功能

音色设计(Voice Design):”所想即所得”

你不需要任何音频样本,只需要用自然语言(比如中文、英文)去描述你想要一个什么样的声音,AI就能为你创造一个全新的、独一无二的音色。非常方便、灵活的同时还解决了版权问题

一番体验后,我想说:

这个功能,又一次重新定义了AI语音生成。

而且我发现,这玩意儿在外网也非常火

各路AI圈的大V、博主们都在疯狂安利~

油管上还有大V用MiniMax Audio的声音设计,几分钟做了个搞笑视频发到TikTok,已近百万播放,轻松赚美刀~

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最关键的是,音色设计是国内版和海外版是同步上线的

这意味着咱们国内用户不需要任何”魔法”,就能随时体验这个最新、超酷的AI语音功能。

先听2个我跑的案例

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

情绪饱满~ 而且音色完全由AI设计,没有版权问题,这才是独一无二的有灵魂的AI语音呀。

另外如果要做一个,分角色朗读(带情感)的有声小说

最好是让AI全自动的写音色设计prompt,自动根据小说情景选择合适的朗读情感

于是我又基于MiniMax MCP做了一个音色设计的AI Agent(在最后面)

一、实测音色设计功能

官方的说法是,这个功能解决了两大行业痛点:

1.官方音色库不够用:

官方提供的几百种音色虽然质量高,但很难满足五花八门的细分场景需求。

2.语音克隆门槛高:

找到高质量、无噪音、无BGM的干声素材太难了(我上次测试MiniMax声音克隆的时候深有体会),而且克隆别人的声音总有点版权,以及是否合法的顾虑。

而语音设计功能,直接绕开了这两个问题

它把声音的决定权,真正交到了我们创作者手里。

你就是声音的产品经理,想要什么,直接给AI提需求就行。

下面,我们进入实战环节。

通过下面这个地址进入MiniMax语音平台

www.minimaxi.com/audio

在左侧导航栏找到「音色设计」

点进去,界面非常简洁。只有两个输入框

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

上面的输入框可以用自然语言写下你对音色的要求(也就是Prompt)。

下面的输入框填写要转录成语音的文本

我的第一个Case是想生成一个「毒舌御姐」

prompt:一个成熟、自信的女性声音,语调略带一丝嘲讽和不屑,聪明又犀利。

文本:哦?是吗?我倒是觉得,你这个观点有点过于理想化了。现实世界可不是这么运转的。

填写好之后,点击生成,会一次性生成三个音色。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

生成的三个音色中,如果没有满意的,可以点击重新生成

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

上面这条我挺满意的,可以听到它确实按照我的要求,自信又带有一丝嘲讽和不屑,太形象了!

选中这条音色后点击「确认选择」,填写音色名称,标签(男/女,英文/普通话),最后就可以保存这个音色。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

保存之后在音色库就能看到刚刚设计的「毒舌御姐」音啦(后续可以一直使用),还可以点击下载按钮下载刚刚生成的那段语音。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

以上就是音色设计的全流程,很简单对吧

接下来就从一些好玩、又实用的组合开始实测吧。

>/ Case1. 远古巨龙

prompt:古老而威严的巨龙,声音像雷鸣一样低沉,带有共振,语速缓慢,充满压迫感

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

>/ Case2. 好莱坞播音员

prompt:模仿好莱坞电影预告片播音员,声音雄浑、低沉,充满史诗感和悬念,每个字都掷地有声。

文本:In the torrent of information, a brand-new force is on the rise. It will redefine the future. Now, the journey is about to begin.

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

>/ Case3. 定制专属起床铃声

想到一个好玩的:制作一个独一无二的闹钟声音,叫醒沉睡的你。

如果你是一个有起床气的人,那么你可以定制一个严厉教官的叫醒服务

prompt:严厉的军队教官,声音洪亮,语速极快,不容置疑的命令语气。

文本:起床!立刻!马上!你的对手已经在学习了!你还在等什么!时间不等人!快!

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

这个声音一直在你耳边叫的话,我不信你还能睡

如果你觉得这个程度还不够,那么可以让这个严厉教官更加愤怒

生气的语气来叫醒你~

在语音合成这里,选择刚刚用音色设计生成的严厉教官音色

输出情绪选择生气,把刚刚的文本复制到空白处,点击生成音频

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

这样我们就得到了一个更生气的严厉教官闹钟,我不相信还有人会起不来

除了生气,还有其他六种情绪(如下图)可以随意选择,当然,也可以选择自动,让AI根据语义自动选择适合的情绪。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

如果你觉得上面那种闹钟太暴躁了,也可以换成温柔的叫醒服务(温柔女友版)

prompt:一个温柔、充满宠溺的女友嗓音,声音带点刚睡醒的沙哑,语调轻柔,充满了爱意和暖意。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

在来个有趣儿的闹钟,相声版闹钟~

每天早上把自己笑醒,哈哈哈

prompt:模仿郭德纲讲相声的语气,声音略带沙哑,京腔十足,语调抑扬顿挫,充满了调侃和幽默感。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

同样的灵感,还可以用于给亲戚、朋友制作独一无二的语音贺卡等等~

留给你们自己玩儿啦

另外我发现音色设计那里还有个小技巧:加上一些!~ …这类的标点符号,有助于情感的表达。

二、分角色带情感的有声小说朗读Agent

玩过了基础的网页版,咱们当然要来点更有价值的。

网页版虽然好用,但如果我想让它读小说,总不能每次都手动去分段、选角色、再合成吧,那不得累死。

我的目标是:搭建一个智能体(Agent),它能自动朗读小说,并做到以下几点:

1.角色区分:能识别出文中的旁白和不同角色的对话。

2.音色匹配:为旁白和每个主要角色,自动匹配一个通过音色设计生成的专属音色。

3.情感注入:能够分析对话中的情感(喜、怒、哀、乐),并在生成语音时带上对应的情绪。

听起来是不是很nice?

实际实现思路也很简单

主要就是用到了MiniMax的MCP-Server

4月底我分享了一篇关于MiniMax的MCP用法的文章,推荐看看

MiniMax MCP用法

袋鼠帝,公众号:袋鼠帝AI客栈

最强中文TTS接入MCP-Server,效果再次封神!

那时候,MiniMax MCP还是7种工具

现在已经增加到10钟工具啦,包括音色设计(voice design)

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

首先,我们需要给这个智能体一个清晰的人设和指令(也就是System Prompt)。

我的Prompt大概是这样的:

# 角色

你是一个专业的有声书制作人。

# 技能

1.你能阅读并理解小说文本。

2.你能精确区分出文本中的“旁白”部分和不同角色的“对话”部分。

3.你能分析出每句对话所蕴含的核心情感(例如:开心、难过、生气、害怕、厌恶、惊讶、中性等)。

4.你拥有一个强大的文本转语音工具集(tools),可以调用MiniMax的各种工具接口来生成或者处理声音。

# 工作流程

1.读取用户输入的小说段落。

2.逐句分析文本,判断是旁白还是对话。

3.- 如果是旁白,使用音色设计工具,生成旁白的音色,并记住旁白的voice_id

4.- 如果是角色A的对话,根据对A角色的描述使用音色设计工具生成其音色,记住voice_id,并分析其情感,将情感参数(emotion)一并传入TTS工具,生成A角色+情感的语音。

5.- 如果是角色B的对话,同上。

6.将分析好的片段和参数,依次调用语音合成工具,最终拼接成一段完整的、分角色、带情感的有声音频,并保存到本地。

第二步 配置MiniMax的MCP-Server(可以在Cursor中配置使用)

{
  "mcpServers": {

    "minimax-mcp-js-cn": {

      "isActive": true,

      "command": "npx",

      "args": [

        "-y",

        "minimax-mcp-js"

      ],

      "env": {

        "MINIMAX_API_HOST": "https://api.minimax.chat",

        "MINIMAX_API_KEY": "xxxxxxx",

        "MINIMAX_MCP_BASE_PATH": "/Users/kangarooking/Desktop/mygGit/MCP/minimax-cn",

        "MINIMAX_RESOURCE_MODE": "local"

      },

      "name": "minimax-mcp-js-cn"

    }

  }
}

上面的配置中 需要用到API地址、apikey

api地址填:https://api.minimax.chat

apikey到下面这个地址申请

https://platform.minimaxi.com/user-center/basic-information/interface-key

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

把MiniMax的MCP配置到Cursor里面使用,配置方法见这篇

正好我上次坐飞机去北京的路上,无聊,就下载小说《长安的荔枝》来看了一下,写的真不错,还挺好看。

我选取了小说前期的一小部分高潮剧情来进行测试,就是下面这段

主角(李善德)发现被自家领导(刘署令)坑了:领导把皇帝安排的几乎不可能完成的差事,硬生生甩到他手上。他压着怒火,直奔刘署令处理论,要讨个说法。

刘署令冷笑道:“荔枝煎?我看你是老糊涂了吧?那东西在口味贡库里车载斗量!用得着咱们提供吗?你们说说,中午可听见我提荔枝煎了吗?”

众人都摇摇头。刘署令道:“我中午说得清楚,敕牒里也写得清楚,授给你这一个荔枝使的头衔,本就是要给宫里采办鲜荔枝的,不要看错!”

李善德的胡须抖了抖,简直不敢相信听到的话:“鲜荔枝?您也知道荔枝的物性,一日色变,两日香变,三日味变,无论从哪里运,也赶不及送到长安啊!”

“所以李大使你得多用用心,圣上可等着呢。” 刘署令冷冷说了一句,随后又充满恶意地补充道,“你可看仔细了,诏书上说得清楚,圣人要的是岭南荔枝。”

李善德眼前一黑,岭南?那里距离长安得有五千里路,就是神仙也没办法!

我直接把system prompt连同小说内容一起丢过去了,模型用的Claude-4.0-Sonnet

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

第一步,它调用音色设计(voice_design)工具为小说内容中的三个角色(旁白、刘署令、李善德)设计了适合的音色

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

随后,开始调用TTS(text_to_audio)工具一段一段的生成小说内容的音频文件

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

在TTS的时候,它还会根据小说内容,自动为对话选择恰当的情绪

比如下面这里,为主角选择的是surprised(惊讶)情绪

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

刘署令选择的是angry(生气)

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最后整个 带情绪的有声小说 成功制作完成~

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

为了快速方便的合成一个音频,我直接把它们拖进了剪映

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

最后导出的音频,如下

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

听听这个效果,角色的情绪转换还是挺自然的

旁白的沉稳、男主的惊讶,反派的语气,都挺到位的。

关键是这个方式全自动,配置好之后,把小说内容丢过去就完事了。

Agent就会自己吭哧吭哧把带情绪的有声小说给生成完毕

其实最后还可以让Agent自己把多个音频整合成一个,只是它要下载ffmpeg,我嫌下载慢就懒得等了。

用这个方法,你完全可以打造一个属于自己的、全自动更新的有声书工厂。

把自己喜欢的小说,变成高品质的有声剧,随时随地听。

还可以用来商业变现,关键是AI设计的音色,不怕版权问题

最后

AI语音从最初充满一股子大佐味的声音,到后来效果惊艳的语音克隆,再到如今更🐂🍺的音色设计

TTS技术的发展速度,真的太快了。

MiniMax语音的音色设计功能,其核心价值在于,它将AI语音合成从模仿的维度,提升到了创造的维度。

这背后依赖的是对声音这个复杂信号的深度理解和解构。

官方的解释是,模型会将自然语言描述的需求,自动拆解成与音色相关的多个维度,比如音频质量、发声方式、情感基调、人物画像等,然后根据这些维度信息,生成一个全新的音色编码。

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

这有点像AI绘画里的文生图,只不过这次,AI”画”出的是声音。

对于我们普通创作者而言,创作门槛的又一次史诗级降低。

无论是视频博主、播客主理人、独立游戏开发者,还是小说作者,我们都获得了一种前所未有的能力:

用最低的成本,创造出最符合我们想象力的、独一无二的、且无版权之忧的声音。

技术的进步,最终都是为了解放生产力和创造力。

我很期待看到,当MiniMax语音的音色设计这个能力被更多人掌握后,会诞生出什么新奇有趣的应用和作品(欢迎评论区分享你天马行空的想法)

而且现在登录MiniMax语音会免费送1w积分,可以生成大约12分钟的音频,用来尝尝鲜还是很不错的。

我自己是买了基础会员,也不贵,36一个月

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

不想买会员也可以选择声贝

一个英文字母=1声贝,一个汉字=2声贝

最强中文TTS!设计任何音色+情感注入,效果绝了~【附实操】

简单一算,一本10万字的中篇小说《长安的荔枝》一顿外卖钱就能将整本书内容转语音。

这个声贝有效期2年,也不错,用不完的可以留着后续体验MiniMax语音的其他新功能。

好了,以上就是本期所有啦!希望对你有帮助~

文章来自于微信公众号“袋鼠帝AI客栈”。

搜索