小米开源可控视频音效生成模型 ControlFoley，达开源 SOTA 表现

大模型之家讯 5月29日，小米宣布开源可控视频音效生成模型 ControlFoley。该模型在语义对齐、时间同步、声音质量及多模态控制能力上达到开源 SOTA 表现。用户可根据视频内容精准控制生成音效的类型和时间点，为视频创作提供全新音频工具。目前代码、模型权重、技术报告及在线 Demo 均已开放。