大模型之家讯 阿里巴巴智能计算研究所近日发布了一项重大突破,推出了名为EMO(Emote Portrait Alive)的新型系统,能够将静态肖像照片转化为生动的视频。这一技术突破标志着音频驱动的说话头视频生成领域取得重要进展,突破长久以来困扰人工智能从业者的难题之一。
与传统方法不同,EMO系统采用复杂的音频到视频合成技术,借助扩散模型生成流畅且富有表现力的面部动作,并与伴随的音频紧密匹配。通过对超过250小时的说话头视频进行训练,EMO实现了空前的视频质量、身份保留和表现力水平。
此外,EMO系统还展示了其多功能性,包括创建歌唱视频,突显了其产生高度逼真和动态内容的能力。
这一创新的推出开辟了人工智能视频生成的新篇章,为行业带来了巨大的发展潜力。然而,同时也需要关注技术应用可能带来的伦理影响,确保其符合道德和法律规范,促进技术的可持续发展和社会责任。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/3748