大模型之家讯 只需2秒钟,AI就能完美重建任何一个人的声音,每个人都能拥有自己的AI声优。这对当下炙手可热的直播行业而言,可谓是个福音,主播们再也不用担心倦怠期了,AI帮你一键解放劳动力,赛博嘴替来了!
现在,这个功能在文心一言即可体验,操作简单,还免费!打开文心一言App,选择创建智能体,点击创建自己的声音,系统会给出一句话,用你平时说话的语气念一遍,在极短时间内,约2s左右,即可获得媲美真人、流畅自然的合成效果,并且合成音频的质量完美保持了你朗读这句话时的情感、风格和自然度,一键生成专属你自己的赛博声优。你还可以构建自己的个性化音库,再匹配上虚拟形象,就能快速打造出一个数字分身。
为什么这项技术能在2秒钟就能复刻人们的声音呢?传统的技术主要是通过大量的样本来制作模型,然后生成一段程序化表达的声音。百度的这项语音合成新技术,是在离线个性化的工作基础之上,依托文心大模型和语音合成大模型通过大量的语音训练,让AI真正理解了文本和声音的对应关系,结合大模型Prompt技术,无需微调,能够以zeroshot的方式,快速生成自然、流畅的个性化合成声音。很多时候甚至能理解文本中的情绪,最大程度上保持原声的情感、风格和自然度。所以,它只需要极短的样本,几秒钟就能完成。
此外,对不同性别、不同年龄的人均适用,尤其是小孩和重口音的兼容效果非常出色,能很好的保留相应的风格和口音,适合中国社会地域分布广泛,口音众多的特点。在这一点上,具有显著优势。
不仅如此,相比于传统学术领域的语音合成技术,百度新技术有较强的抗噪能力,即使原始录制音频背景嘈杂,依然能够获得流畅的、音质干净的合成效果。
此前,百度语音合成技术已有众多应用,比如在百度地图上,用户只需9句话就可合成专属导航语音包、技术修复雷锋原声读《雷锋日记》、赋能智能汽车等。语音技术正加速生产发展和落地,改变人们的生活。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/4466