Meta发布Seamless Communication系列AI翻译大模型,实现实时语音转换低于2秒延迟

大模型之家讯 Meta最新发布了一系列 AI 翻译大模型,命名为 Seamless Communication,标志性地实现了实时语音转换延迟不超过2秒的能力。该系列模型包括 SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2 和 Seamless,其中前三个已经在 GitHub 上开源。

Meta发布Seamless Communication系列AI翻译大模型,实现实时语音转换低于2秒延迟

这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得 AI 翻译更富有表现力。在技术架构方面,Meta 采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。

核心算法 EMMA 能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了 UnitY2 等新架构来增强语音生成能力。为了解决翻译准确性的问题,Meta 引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。

为了防止滥用风险,Meta 还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。

Meta 的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/2683

(0)
上一篇 2023年12月22日
下一篇 2023年12月25日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注