Mistral发布首款开源AI音频模型Voxtral​

Mistral发布首款开源AI音频模型Voxtral​

▲(图源:来自其官网)

随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。

法国初创公司 Mistral 也加入了这场“语音竞赛”。它推出了首个开源音频模型家族 Voxtral,试图打破那些被大公司封闭系统所垄断的局面,用开放模型给开发者更多自由。

本周二,Mistral 正式发布 Voxtral。这是它面向企业用户的首个音频模型系列。

Mistral发布首款开源AI音频模型Voxtral​

Mistral 的目标很明确:Voxtral 要成为首个能在真实业务场景中落地的“可用语音智能”开源模型。

换句话说,开发者不再需要在“便宜但效果差的开源模型”和“强大但封闭昂贵的商业产品”之间做痛苦选择。现在,他们可以同时拥有效果和控制权,还能节省一半以上的成本。

Mistral发布首款开源AI音频模型Voxtral​

据官方介绍,Voxtral 最长可以转录 30 分钟的音频内容。因为模型背后接入了自家的 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。不光是听懂说了什么,还能回答相关问题、生成摘要,甚至把语音指令转化为 API 调用或执行操作。

Mistral发布首款开源AI音频模型Voxtral​

Voxtral 还支持多种语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。

Mistral 提供了两个版本的“语音理解模型”:Voxtral Small,参数规模 240 亿,用于大规模部署,定位接近 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash;Voxtral Mini,参数 30 亿,更适合本地和边缘设备部署。此外还有一个超轻量的转录专用模型 Voxtral Mini Transcribe,只做转录,但速度更快、价格更低,号称比 OpenAI 的 Whisper 更省钱、效果更好。

Mistral发布首款开源AI音频模型Voxtral​

开发者可以免费试用 Voxtral,支持在 Hugging Face 下载 API,或在 Mistral 的聊天机器人 Le Chat 中直接体验。根据官方介绍,API 调用起步价为每分钟 0.001 美元。

这次发布距离 Mistral 上次推出推理模型家族 Magistral 仅过去一个月。Magistral 是其首批具备“逐步推理”能力的大模型,用来提升复杂任务的可靠性。

Mistral发布首款开源AI音频模型Voxtral​

作为欧洲最受关注的 AI 创企之一,Mistral 一直以推动开源模型著称。据 TechCrunch 报道,公司目前正与包括阿布扎比 MGX 基金在内的多家投资方洽谈融资,金额最高可能达到 10 亿美元。

立即免费试用

无论你是在笔记本上快速原型、在本地私有环境中处理任务,还是在云端大规模部署,使用 Voxtral 都非常简单。

本地部署:Voxtral(240亿参数)和 Voxtral Mini(30亿参数)都已上线 Hugging Face,支持下载运行。

API 调用:只需一行代码,就能将先进的语音理解能力集成进你的应用。价格低至每分钟 0.001 美元,轻松实现高质量转录与理解,适用于大规模使用。文档在这里查看。

Le Chat 体验:你也可以在 Le Chat 聊天机器人中体验 Voxtral 的语音模式(未来几周将全面开放)。支持网页端和移动端,录音或上传音频后,可以获取文字转写、提出问题或生成摘要。

企业级高级功能

针对对安全性、规模或行业专业性有更高要求的企业客户,Mistral还提供以下能力:

本地私有化部署:Mistral的解决方案团队可协助你在私有基础设施中搭建生产级别的 Voxtral 推理系统,适用于医疗、金融等对数据隐私要求严格的场景。支持多GPU/多节点部署,提供量化模型版本,兼顾吞吐和成本效率。

行业定制微调:可与 Mistral 应用 AI 团队合作,对模型进行领域微调,如法律、医疗、客服或内部知识库等场景,提升语义理解准确度。

更强的上下文能力:Mistral正在与合作伙伴开发更高级的语音功能,如说话人识别、情绪识别、说话人分离,以及更长的上下文处理能力,开箱即用,满足多样化需求。

专属集成支持:提供工程团队优先支持和咨询服务,帮助企业将 Voxtral 无缝集成进现有产品、工作流或数据系统。

敬请期待

8 月 6 日(周三),Mistral将联合 Inworld 举办线上直播,演示如何用 Voxtral 和 Inworld TTS 打造端到端语音智能体。欢迎报名参加,感受语音 AI 的全流程魅力!

接下来几个月,Voxtral 语音能力将继续拓展。除语音理解外,我们还将支持:

  • 说话人分段识别
  • 音频标注(如年龄、情绪)
  • 逐词时间戳
  • 非语音音频识别
  • 还有更多功能!

Mistral很期待看到你们用 Voxtral 做出怎样的创新项目。

参考链接:

https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/

https://mistral.ai/news/voxtral

文章来自于“AI星球视界”,作者“星球”。

搜索