音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 211|回复: 0
收起左侧

[资讯] Deepgram推出高级对话式语音识别模型 Flux

[复制链接]

667

积分

0

听众

12

音贝

音频应用新手发布

Rank: 3

积分
667
发表于 昨天 00:00 | 显示全部楼层 |阅读模式


语音识别与语音人工智能先驱Deepgram今日宣布推出Flux模型,该公司宣称这是全球首个专为实时语音助手设计的对话式语音识别(CSR)模型。作为语音转语音技术的新引擎,Flux被认为解决了语音AI领域的核心难题:中断识别。Deepgram表示该模型使其距离通过音频图灵测试更近一步。
https://audioxpress.com/assets/upload/images/1/20251006133649_Deepgram-FluxConve.png

音频图灵测试是一种受原始图灵测试启发,专门用于音频设计,主要用于评估语音综合或文本到语音(TTS)系统。该测试基准通过将它们与真实的人类语音进行比较,将对比音频剪辑的“拟真度”,尤其是由高级AI模型产生的片段。

Deepgram指出,与传统自动语音识别(ASR)技术(主要应用于字幕或会议记录等转录场景)不同,Flux经过专门训练可理解对话中的微妙差异。它不仅能捕捉表层语义, 它能识别说话者何时结束发言、何时应答,并保持对话流畅自然且引人入胜。

Deepgram在公告中指出:
"全球语音人工智能代理市场预计到2034年将达到近475亿美元规模,复合年增长率约为34.8%。这一增长主要源于企业跨行业转向自动化客户自助服务、智能客服辅助工具及嵌入式对话体验。但传统语音转文本系统并非为实时对话而设计。为重构对话流程,开发者被迫拼凑转录、语音活动检测和轮次逻辑——这种拼凑方案导致延迟、错误频发,造成用户体验不佳。"

“Flux通过将轮次交接功能直接嵌入识别过程,彻底解决了这些问题。它使语音识别从单纯转录文字升级为建模对话流程本身,让开发者能够构建响应迅速、类人化的语音助手,无需面对复杂的权宜代码或无休止的阈值调试。”

https://audioxpress.com/assets/upload/images/1/20251006133649_Deepgram-FLUX-Surv.png


据该公司称,Flux是一款具备对话感知能力的识别模型,能在模型内部处理时间轴,通过上下文感知轮次检测和原生插话处理实现流畅交互。“Turn detection”是判断发言者何时结束发言、系统何时应作出响应的高级技术。不同于仅基于音频信号识别语音存在与否的简单语音活动检测(VAD),语境感知轮次检测同时利用声学特征(如韵律、停顿、语调)和语义线索(如完整句子、语法结构及对话意图)。Flux提供约260毫秒的超低延迟话轮结束检测,并支持独立事件触发机制,可在话轮结束前生成预判响应。



Deepgram表示,这些技术突破将使开发者能够生成完整话轮转录文本,用结构化对话提示取代脆弱的客户端逻辑,从而让团队在数周而非数月内交付可投入生产使用的智能对话系统。基于公司Nova语音转文本模型,Flux据称可实现Nova-3级精度,支持单GPU处理100+流的高效GPU并行计算,并具备可预测成本优势,避免了附加系统的隐性开销。

全新Flux模型于10月2日在旧金山市中心举办的VapiCon 2025语音AI开发者大会上正式发布。Vapi作为语音接口技术公司,致力于打造开发者友好型工具、API及基础设施平台,助力构建具备低延迟与强健安全性的对话式AI语音助手,可处理数百万通呼叫。

首席执行官Jordan Dearsley表示:“Vapi始终致力于为工程团队提供构建对话前端的平台,Deepgram推出的Flux正是这一愿景的完美实践。通过将轮询机制直接嵌入语音识别,Flux攻克了对话式AI最棘手的难题之一。我们非常高兴Deepgram选择VapiCon发布这项突破性技术,期待见证开发者们运用它创造出卓越的语音助手。"

https://audioxpress.com/assets/upload/images/1/20251006134719_Scott-Stephenson-C.png

Deepgram创始人兼首席执行官Scott Stephenson与首席技术官Adam Sypniewski。

Deepgram联合创始人兼首席执行官斯Scott Stephenson补充道:“Flux重新定义了语音识别在实时AI领域的可能性,数十年来,ASR技术仅专注于听觉采集与记录。而Flux不同——它能以类人节奏聆听、理解并引导对话。这是语音助手长期期待的基础架构,也是我们攻克音频图灵测试的最新里程碑。”

Flux现已面向开发者、工程主管及实时智能助手开发团队全面开放。为庆祝上线,Deepgram推出“十月Flux”活动——2025年10月整月免费开放Flux使用权限。开发者可免费构建并测试实时语音助手,支持最多50路并发连接。更多详情请见此处。

Deepgram提供语音转文本(STT)、文本转语音(TTS)及全语音转语音(STS)技术,服务于20万+开发者。其原生语音基础模型可通过云API或自托管/本地API访问。

www.deepgram.com
https://audioxpress.com/assets/upload/images/1/20251006133649_Deepgram-logo-slog.png
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-10-9 22:48 , Processed in 0.031524 second(s), 9 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表