继视频创作模型Sora后,OpenAI又放大招……
日前,OpenAI宣布推出全新人工智能模型。根据官方介绍,此次新闻的“主角”名为Voice Engine,是一款语音创作模型,利用文本输入和单个15秒音频样本,能够生成与原说话者非常相似且情感丰富的自然语音。
图源:网络
谈及Voice Engine,OpenAI官方推特的措辞显得异常小心而谨慎“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会”。
目前,OpenAI仅针对少部分内测用户开放了Voice Engine。
Voice Engine:是颠覆,也做好了风险预设?
事实上,早在2022年底Voice Engine便已经开发完成。彼时,Voice Engine被用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。不过,出于合成语音被滥用的考虑,OpenAI才选择了谨慎有序地推进和发布。
图源:大模型之家
如今,Voice Engine正式上市,不仅解锁了语音模型更多可能性,还为AI在语音创作领域的巨大优势作出了十分具象化的表达。
根据公告显示,OpenAI主要介绍了Voice Engine 5 个合作案例,分别为教育、多语言翻译、社区卫生、辅助通讯、神经科学等领域。于此,我们不禁发问:Voice Engine,到底有何不同呢?
首先,Voice Engine极大地缩短了语音制作周期。以目前最为火热的短视频制作为例,传统的配音制作通常需要经历配音演员录音→编剧/导演调整→后期剪辑制作→导演复审→成片这一流程。而Voice Engine模型则仅需提取相关配音演员的15秒样本,就能创造出富有感情和逼真的声音。从模式上来说,Voice Engine简化了原有的复杂流程,提高了工作效率;从配音演员的角度上看,Voice Engine大大提高了其自身的工作效率,让“批量接活”、“批量成片”成为了现实。
其次,Voice Engine为语音创作提供了更高的创作自由度。相较于传统语音创作,用户只需通过简单15秒的语言情绪表达,便可在Voice Engin的加持下为“成品”赋予多种“地若悬河”的语音表达色彩。众所周知,由于目前市面上的内容分享平台风格特性具有较大的差异化,因此不同平台的“成品”评价标准并不相同,而Voice Engine创作自由度等特点,也在一定程度上为作品与不同平台的适配度奠定了基础。
同时,Voice Engine的语音生成质量也颇为出色。据悉,该技术在语音生成过程中并不使用用户数据进行训练或微调,而是通过结合Diffusion过程与Transformer技术直接生成语音,且在生成后会立即删除使用的音频数据。这使得生成的语音具有高度的还原感的同时,保障了用户隐私。
值得注意的是,Voice Engine使用过程中所涉及到的“合成语音引发的电信诈骗”、“版权侵害”等社会风险问题也引发了大量讨论及担忧。
为此,OpenAI表示采取了一系列措施来确保安全,包括添加水印以追踪使用方式、淘汰基于语音的身份验证、教育公众了解AI技术的能力和局限性等。通过这些举措,OpenAI希望在保证技术潜力的同时,增强对潜在问题的抵御能力。
语音创作行业的双刃剑
诚然,虽然自其问世以来,关于“Voice Engine是否会取代相关工作人员”的争论不绝于耳,但在大模型之家与一众视频、纪录片从业者交流后发现,持“看好态度”的从业者占据比例超过半数。同时,他们强调:Voice Engine不仅会成为语音制作过程中有力的助手,也将一定程度上实现效率、质量双方面的提升。从长远来看,Voice Engine可能会对相关行业产生一定程度的冲击,推动声音工作的标准化、流程化。
同时,Voice Engine模型作为一种强大语音创作的工具,为配音演员提供了一种全新的创作方式。目前,Voice Engine的定价为每百万字符15美元,虽然存在“高清”选项,且其价格是标准价格的两倍,但OpenAI表示两者在声音质量上并无区别。这不仅意味着语音创作门槛的降低,也在一定程度上使配音演员赛道向智能化、统一化过渡。
“Voice Engine生成的语音可能会缺乏某种真实感和细腻度。众所周知,目前社交平台上的广告已经完全摒弃传统广告行业的‘开门见山’,更多的是以剧情化、情感化故事为线索。而人工智能生成的语音或许能通过提取声音素材找到配音演员的‘气息发声特点’,但仍会缺乏某种情感上的共鸣。”国内某综艺后期剪辑师告诉大模型之家。
当然,也有一位视频后期从业者向大模型之家表示了担忧,指出虽然从技术层面不会对语音从业者造成实质性影响,但却可能影响整个视频的良性格局。“这种配音我们在无需真人拍摄,只需从网上寻找素材进行拼凑剪辑的时候会大量使用,但这种情况下生成的成品质量十分‘稳妥’,可以说是千篇一律了”,这种变化可能会影响到整个行业的创新性和市场地位,因此仍然存在一定程度的担忧和不确定性。
因此,大模型之家认为,尽管大众都在讨论Voice Engine问世带来的一些“负面”影响,但其所催化的新机会与新的行业模型才更应被重点关注。Voice Engine的出现不仅简化了语音制作流程,提高了效率,还为配音演员与这项技术的经济互动带来了更多的可能。我们相信,随着Voice Engin技术的普及和应用,拟人化创作的空间将愈加扩大,未来也会有更多出彩的语音创作作品涌现。
当然,从本质上看,Voice Engine是AI语音技术的延伸和发展。它的出现将进一步推动大模型的场景落地及想象边界,促进相关技术的不断迭代和进步。对于整个OpenAI 来说,Voice Engine的问世补全了其多模态 AIGC 工具的又一块拼图,让其成功蜕变为:文生文—GPT、文生图—DALLE、音频转文字(STT)——Whisper、文字转音频(TTS)——Voice Engine、文生视频——Sora、多模态理解——GPT-4v的全能格局。纵使现在格局显得有些零星分散,但却是OpenAI通往 AGI 的道路上,领先且强大的全模态工具箱。
原创文章,作者:欧 玉娇,如若转载,请注明出处:http://damoai.com.cn/archives/4501