腾讯开源“照片说话”视频生成框架

大模型之家讯根据arXiv，腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段，最初，团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后，团队采用鲁棒的扩散模型，结合运动模块，将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异，从而增强了感知体验。

腾讯开源“照片说话”视频生成框架

发表回复