小米开源可控视频音效生成模型 ControlFoley,达开源 SOTA 表现

大模型之家讯 5月29日,小米宣布开源可控视频音效生成模型 ControlFoley。该模型在语义对齐、时间同步、声音质量及多模态控制能力上达到开源 SOTA 表现。用户可根据视频内容精准控制生成音效的类型和时间点,为视频创作提供全新音频工具。目前代码、模型权重、技术报告及在线 Demo 均已开放。

上一篇:

下一篇:

发表回复

登录后才能评论