▲(图源:来自其官网)
随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。
法国初创公司 Mistral 也加入了这场“语音竞赛”。它推出了首个开源音频模型家族 Voxtral,试图打破那些被大公司封闭系统所垄断的局面,用开放模型给开发者更多自由。
本周二,Mistral 正式发布 Voxtral。这是它面向企业用户的首个音频模型系列。
Mistral 的目标很明确:Voxtral 要成为首个能在真实业务场景中落地的“可用语音智能”开源模型。
换句话说,开发者不再需要在“便宜但效果差的开源模型”和“强大但封闭昂贵的商业产品”之间做痛苦选择。现在,他们可以同时拥有效果和控制权,还能节省一半以上的成本。
据官方介绍,Voxtral 最长可以转录 30 分钟的音频内容。因为模型背后接入了自家的 Mistral Small 3.1 大模型,它还能理解长达 40 分钟的语音。不光是听懂说了什么,还能回答相关问题、生成摘要,甚至把语音指令转化为 API 调用或执行操作。
Voxtral 还支持多种语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。
Mistral 提供了两个版本的“语音理解模型”:Voxtral Small,参数规模 240 亿,用于大规模部署,定位接近 ElevenLabs Scribe、GPT-4o-mini 和 Gemini 2.5 Flash;Voxtral Mini,参数 30 亿,更适合本地和边缘设备部署。此外还有一个超轻量的转录专用模型 Voxtral Mini Transcribe,只做转录,但速度更快、价格更低,号称比 OpenAI 的 Whisper 更省钱、效果更好。
开发者可以免费试用 Voxtral,支持在 Hugging Face 下载 API,或在 Mistral 的聊天机器人 Le Chat 中直接体验。根据官方介绍,API 调用起步价为每分钟 0.001 美元。
这次发布距离 Mistral 上次推出推理模型家族 Magistral 仅过去一个月。Magistral 是其首批具备“逐步推理”能力的大模型,用来提升复杂任务的可靠性。
作为欧洲最受关注的 AI 创企之一,Mistral 一直以推动开源模型著称。据 TechCrunch 报道,公司目前正与包括阿布扎比 MGX 基金在内的多家投资方洽谈融资,金额最高可能达到 10 亿美元。
立即免费试用
无论你是在笔记本上快速原型、在本地私有环境中处理任务,还是在云端大规模部署,使用 Voxtral 都非常简单。
本地部署:Voxtral(240亿参数)和 Voxtral Mini(30亿参数)都已上线 Hugging Face,支持下载运行。
API 调用:只需一行代码,就能将先进的语音理解能力集成进你的应用。价格低至每分钟 0.001 美元,轻松实现高质量转录与理解,适用于大规模使用。文档在这里查看。
Le Chat 体验:你也可以在 Le Chat 聊天机器人中体验 Voxtral 的语音模式(未来几周将全面开放)。支持网页端和移动端,录音或上传音频后,可以获取文字转写、提出问题或生成摘要。
企业级高级功能
针对对安全性、规模或行业专业性有更高要求的企业客户,Mistral还提供以下能力:
本地私有化部署:Mistral的解决方案团队可协助你在私有基础设施中搭建生产级别的 Voxtral 推理系统,适用于医疗、金融等对数据隐私要求严格的场景。支持多GPU/多节点部署,提供量化模型版本,兼顾吞吐和成本效率。
行业定制微调:可与 Mistral 应用 AI 团队合作,对模型进行领域微调,如法律、医疗、客服或内部知识库等场景,提升语义理解准确度。
更强的上下文能力:Mistral正在与合作伙伴开发更高级的语音功能,如说话人识别、情绪识别、说话人分离,以及更长的上下文处理能力,开箱即用,满足多样化需求。
专属集成支持:提供工程团队优先支持和咨询服务,帮助企业将 Voxtral 无缝集成进现有产品、工作流或数据系统。
敬请期待
8 月 6 日(周三),Mistral将联合 Inworld 举办线上直播,演示如何用 Voxtral 和 Inworld TTS 打造端到端语音智能体。欢迎报名参加,感受语音 AI 的全流程魅力!
接下来几个月,Voxtral 语音能力将继续拓展。除语音理解外,我们还将支持:
- 说话人分段识别
- 音频标注(如年龄、情绪)
- 逐词时间戳
- 非语音音频识别
- 还有更多功能!
Mistral很期待看到你们用 Voxtral 做出怎样的创新项目。
参考链接:
https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/
https://mistral.ai/news/voxtral
文章来自于“AI星球视界”,作者“星球”。