云知声发布“山海·知音”2.0语音大模型,聚焦多方言与端到端交互能力

大模型之家讯 今日,云知声发布了“山海·知音”大模型2.0。这是继年前完成“山海·知医”5.0医疗大模型升级之后,其围绕“山海·Atlas”通用智算基座持续演进的重要一步,也标志着云知声“一基两翼”技术战略在语音与交互侧的进一步补齐。

从定位上看,“山海·Atlas”承担的是多模态、跨语言的通用能力底座,而“山海·知医”“山海·知音”等则是面向具体场景的专业智能体。此次发布的“山海·知音”2.0,核心聚焦语音理解、语音生成以及端到端交互能力,试图解决复杂真实场景中“听得准、说得像、反应快”的问题。

从“听清楚”走向“听明白”

在语音识别(ASR)层面,云知声披露,“山海·知音”2.0在公开测试集和自有全场景测试集中,整体指标达到或超过国内主流开源与闭源语音大模型的水平。尤其在复杂噪声和方言口音场景中,识别性能相较主流ASR模型提升约2.5%至3.6%,在复杂背景音条件下,识别准确率首次在其测试体系中突破90%。

云知声发布“山海·知音”2.0语音大模型,聚焦多方言与端到端交互能力
云知声发布“山海·知音”2.0语音大模型,聚焦多方言与端到端交互能力

更具指向性的变化体现在对专业语境的理解能力上。模型不再仅依赖字面匹配,而是通过上下文推理与行业知识注入,提高对专业术语和指令的识别准确度。云知声给出的数据显示,在部分专业场景中,相关识别精度提升可达30%。例如在汽车销售、医疗记录转写等场景中,模型能够在上下文不完整的情况下,推断并识别特定术语。

云知声发布“山海·知音”2.0语音大模型,聚焦多方言与端到端交互能力

在语言覆盖面上,“山海·知音”2.0支持30余种中文方言及14种外语的识别与转写,并尝试将语音与视觉语义进行融合,用于会议、讲义等多模态场景,以提升整体理解效果。

语音合成向“拟人化”和“低延迟”推进

在语音合成(TTS)方面,云知声将此次升级的重点放在拟人化表达与实时交互能力上。目前模型支持包括粤语、四川话、上海话在内的12种方言,以及日语、韩语、泰语等10种外语,并可在普通话中切换多种风格。合成语音中对笑声、停顿、呼吸等细节的保留,被视为提升自然度的重要手段。

云知声发布“山海·知音”2.0语音大模型,聚焦多方言与端到端交互能力

技术层面,云知声针对大模型语音合成中普遍存在的延迟问题进行了结构调整。不同于传统基于流匹配分段处理的方案,其采用纯因果注意力机制的流匹配模块,并与神经声码器进行联合优化,构建端到端的流式推理架构。在官方披露的数据中,低并发场景下的首包延迟已压缩至90毫秒以内,接近实时交互的要求,同时未明显牺牲音质。

此外,模型还支持一句话声音复刻及长文本合成,面向有声内容制作、陪伴式阅读和播客等应用场景。

端到端全双工交互的现实考验

如果说ASR和TTS解决的是“听”和“说”,那么端到端全双工能力则指向更接近人类对话的交互体验。云知声表示,“山海·知音”2.0在流式收声过程中同步完成理解、决策与生成,支持随时打断、即时接话以及多轮追问,并在打断后保持对话状态的连续性。

这一能力的实现,依赖于“山海·Atlas”智算一体基座对传统ASR、TTS和对话模块的深度整合。相较于模块级联的传统方案,端到端模型在交互效率和连贯性上具备一定优势,但同时也对算力调度和系统稳定性提出更高要求。

整体来看,“山海·知音”2.0并未试图通过单点参数或概念取胜,而是围绕真实场景中的噪声、方言、专业语境和实时性问题进行针对性优化。在智能体逐步走向行业和家庭的过程中,这类以交互质量为核心的能力演进,或将成为下一阶段竞争的关键变量。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/14482

(0)
上一篇 2天前
下一篇 7小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注