OpenAI公开语音引擎模型Voice Engine,可利用15秒音频复制原音

大模型之家讯 OpenAI最近发布了备受期待的语音引擎模型——Voice Engine。该模型利用文本输入和单个15秒音频样本,能够生成与原说话者非常相似且情感丰富的自然语音。目前,OpenAI仅针对少部分内测用户开放了Voice Engine。

Voice Engine的开发始于2022年底,用于支持文本转语音API以及ChatGPT语音和朗读中可用的预设语音。然而,考虑到合成语音可能被滥用的风险,OpenAI选择了谨慎有序地推进和发布Voice Engine。

OpenAI公开语音引擎模型Voice Engine,可利用15秒音频复制原音

近两年来,全球生成式AI应用规模呈现爆发式增长,预计到2027年,全球AI软件市场规模将达到2790亿美元。Voice Engine的问世将解锁语音模型的更多可能性,如辅助阅读、视频转译等,同时也将在发音障碍人群的语言表达上提供有效帮助。

Voice Engine的发布引起了人们的关注和期待。该模型不仅能为非读者和儿童提供阅读帮助,还能翻译视频和播客等内容,支持非语言人群和帮助患有突发性或退化性言语病症的患者恢复声音。

然而,人们也对Voice Engine的使用提出了质疑,担心其可能被用于电信诈骗等不法行为。为此,OpenAI表示将采取一系列安全措施,包括添加水印以追踪使用方式、淘汰基于语音的身份验证、教育公众了解AI技术的能力和局限性等。通过这些举措,OpenAI希望在保证技术潜力的同时,增强对潜在问题的抵御能力。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/4352

(0)
上一篇 2024年3月29日 下午8:08
下一篇 2024年4月1日 上午10:05

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注