美国当地时间1月13日,语音AI公司Deepgram宣布完成1.3亿美元C轮融资,由AVP领投,Alkeon、In-Q-Tel、Madrona等老股东,以及新投资者Alumni Ventures、Princeville Capital、Citi Ventures跟投。此轮融资后,公司总融资额达到2.15亿美元,估值13亿美元,成为了这一赛道的新晋独角兽。

据悉,Deepgram成立于2015年,由密歇根大学物理系研究员Noah Shutty(CTO)和其导师Scott Stephenson(CEO)二人共同创立。创立的初衷,是源于Shutty的一项学术研究,希望能够找到更加便捷的方式,管理日常生活中碎片化的音视频片段,并借助AI实现智能检索。如今,公司主要面向B端,推出的语音转文本、文本转语音、语音识别等模型已服务于1300多家企业级用户。

(Deepgram部分B端用户,图源:Deepgram官网)
据公开信息显示,在Deepgram成立的近10年时间里,并不都是一帆风顺的,而是经历了融资、裁员、降本等曲折道路。
2016年,Deepgram成刚成立不久,就获得了由Y Combinator、Metamorphic Ventures共同领投的180万美元融资。2021-2022年间,又连续融资了8600万美元,估值升至2.67亿美元。
然而,高昂的研发成本也在持续地烧着钱,加之谷歌、微软、亚马逊等巨头入场竞争,OpenAI推出开源语音识别模型Whisper,为企业提供低价的API服务,Deepgram的优势已大不如前。
2023-2025年间,面对市场竞争加剧、高利率下融资压力攀升,Deepgram不得不进行两次大规模裁员来控制成本,每次裁员人数均在20%(20人左右)。
而此次在2026年开年的新一轮融资,公司不仅拿到了历史最高的单笔融资,估值也是翻倍飙升。那么这笔融资究竟是助其脱困的“雪中送炭”,还是在市场洪流中的“锦上添花”呢?
语音文字互转,不再只是记录
在Deepgram平台的体验中,可以发现其设计并不是那种很生硬的语音和文字的相互转录,而是能够看到一些有意思的小巧思。
比如在面向C端的语音转文字时,可以像微信一样,按住话筒标识说话,或直接上传文件,转成文字后的内容支持复制和下载。

相反,在文字转语音的过程中,支持1000字的文本输入,这里也提供了医疗、财务、销售等工作场景的文字模板。同时还有海伦娜、露娜、奥德修斯等有不同口音(如英音、美音、澳大利亚音等)、性别的声音模板,且模板前都有对应的角色形象。虽然这些角色所展现出来的是声音,但实际上也内在嵌入了差异化的性格特点、年龄等拟人化特征,每个角色都有自身所对应的一套标签。
比如奥德修斯就是冷静、圆滑、舒适且专业的,阿玛尔西亚就是自然、开朗的。基于角色的不同性格,可以匹配出合适的使用场景,如比较随意地讲故事、聊天,或是很专业的广告、采访、客户服务等等。

这一过程,就会让人感觉并不是在单纯地做AI转化,而是在创作,用自己喜欢的声音配合文字,甚至可以用其来配音做一些带有人物反差感、有趣的内容。
另外,Deepgram还推出了AI助手Deepgram Saga,接入了ChatGPT、Claude、Gemini等多款顶尖模型,支持文字和语音输入,可以完成问题回答、信息检索、头脑风暴思考甚至能够直接执行工行工作流操作。

塔可钟“翻车”的AI点餐,迎来新的挑战者
虽然Deepgram在近两年的时间一度陷入资金困境,但经过对B端大客户的积累和定制化服务,公司在2025年现金流已实现转正,CEO Scott Stephenson更是表示,公司目前其实并不缺钱,此次融资也是跟随市场趋势,在市场需求的推动下进行的。
实际上,在2025年语音AI赛道的融资案例并不少见,比如ElevenLabs完成了1.8亿美元的C轮融资,Seasame完成了2.5亿美元的B轮融资,Gradium完成7000万美元种子轮融资,还有云知声也成功在港股IPO。足以见得,这一赛道的爆发增长态势。
但与同类公司不同的是,Deepgram在应用场景方面走出了一条让人意想不到的道路。在宣布此轮融资的同时,公司还公布了一则最新收购消息。
Deepgram收购了同为YC投资孵化的一个AI点餐项目OfOne,并成立Deepgram for Restaurants新业务,原OfOne CEO Will Edwards担任此新业务的总经理。

(OfOne智能点餐)
据悉,OfOne曾开发过一套语音AI驱动的点餐系统,订单准确率高达93%,能够有效处理背景噪音、多元化口音、复杂的菜品定制需求等问题。基于业务的部分重合性,Deepgram也将其原有的业务加以利用,推出的Deepgram for Restaurants垂直于餐饮服务。通过专业训练的语音模型,实现与真人用户互动点餐,并能实时协助餐厅员工工作。
Stephenson认为,大众的语音AI的首次互动往往都是在零售环境中发生的,但零售环境充满了挑战。甚至连麦当劳、塔可钟等多个餐饮品牌都曾因语音AI试点未达预期,而收缩或暂停。甚至塔可钟还曾出现过有人对着AI点了1.8万个水杯的搞笑“名场面”,由此也可以看出AI在处理不同用户表达、口音或复杂需求时,还是有很大的可提升空间的。此次收购OfOne深入餐饮场景,可以说是Deepgram迎难而上,直面挑战的一次新尝试。
餐饮之外,Deepgram还在医疗、客服、销售、金融等多行业多场景下有着灵活的使用。特别是医疗场景,由于欧美国家去医院看病一般都要提前很久预约,专业医生人力资源短缺,医生除了看病之外,还需处理记录、整理等流程上的工作。
而使用语音AI后,AI就可以智能捕捉实时对话内容,并形成结构化记录,语音输入直接撰写完整的处方,甚至提供7×24小时自助服务,处理患者咨询、预约安排等。让医生能够专注于看病,其余事项交给AI来处理提升效率。

相对于医疗场景下AI需要体现严谨、认证以及专业度,客服场景下就会稍显灵活一些。如上文所说,B端用户可以去定制化语音AI的角色形象,让对面显得不再是冷冰冰的机器,而是鲜活、有生命力的拟人形象,支持选择不同模型来思考,设置第一句打招呼用语、结束语、提示词、关键词、专业术语等等。
此外,用户还可以在0-1之间自定义LLM数值来控制AI的随机反应,数值越低,模型则更加可以预测,也就是可控性越强,数值越高,则会增加AI的“不可控性”,AI输出的内容更加随机,也可能会变得“放飞自我”。
总的来说,Deepgram此轮融资一方面可以被视为公司现金流的补充,对前两年裁员降本、市场压力的缓解;另一方面则是其业务版图向新场景的延伸。可以预见的是,未来,语音AI将不再只是办公室里的效率工具,而是会渗透进大众生活的方方面面,成为解决复杂问题的日常伙伴。
文章来自于微信公众号 “扬帆出海”,作者 “扬帆出海”

