2秒定制你的AI声音，赛博嘴替真的来了！

志斌 • 2024年4月3日下午6:31 • 人工智能

大模型之家讯只需2秒钟，AI就能完美重建任何一个人的声音，每个人都能拥有自己的AI声优。这对当下炙手可热的直播行业而言，可谓是个福音，主播们再也不用担心倦怠期了，AI帮你一键解放劳动力，赛博嘴替来了！

现在，这个功能在文心一言即可体验，操作简单，还免费！打开文心一言App，选择创建智能体，点击创建自己的声音，系统会给出一句话，用你平时说话的语气念一遍，在极短时间内，约2s左右，即可获得媲美真人、流畅自然的合成效果，并且合成音频的质量完美保持了你朗读这句话时的情感、风格和自然度，一键生成专属你自己的赛博声优。你还可以构建自己的个性化音库，再匹配上虚拟形象，就能快速打造出一个数字分身。

为什么这项技术能在2秒钟就能复刻人们的声音呢？传统的技术主要是通过大量的样本来制作模型，然后生成一段程序化表达的声音。百度的这项语音合成新技术，是在离线个性化的工作基础之上，依托文心大模型和语音合成大模型通过大量的语音训练，让AI真正理解了文本和声音的对应关系，结合大模型Prompt技术，无需微调，能够以zeroshot的方式，快速生成自然、流畅的个性化合成声音。很多时候甚至能理解文本中的情绪，最大程度上保持原声的情感、风格和自然度。所以，它只需要极短的样本，几秒钟就能完成。

此外，对不同性别、不同年龄的人均适用，尤其是小孩和重口音的兼容效果非常出色，能很好的保留相应的风格和口音，适合中国社会地域分布广泛，口音众多的特点。在这一点上，具有显著优势。

不仅如此，相比于传统学术领域的语音合成技术，百度新技术有较强的抗噪能力，即使原始录制音频背景嘈杂，依然能够获得流畅的、音质干净的合成效果。

此前，百度语音合成技术已有众多应用，比如在百度地图上，用户只需9句话就可合成专属导航语音包、技术修复雷锋原声读《雷锋日记》、赋能智能汽车等。语音技术正加速生产发展和落地，改变人们的生活。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/4466