昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

大模型之家讯 8 月 15 日,昆仑万维宣布正式上线音乐生成模型 Mureka V7.5,标志着其 SkyWork AI 技术发布周收官。与此同时,公司语音团队推出了基于 Mixture of Experts(专家混合)架构的描述性语音合成框架 MoE-TTS。

昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

Mureka V7.5:中文音乐生成能力升级

据介绍,Mureka V7.5 在中文歌曲生成的音色、演奏技法、咬字与情感表现方面均有提升。模型在传统民歌、戏曲、华语流行及当代民谣等曲风上具备更深的理解能力,能够更准确地还原中文音乐的韵律与情感特征。

昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

此次升级还引入了针对中文歌曲特性的 ASR(自动语音识别)优化,用于更精确地识别歌词内容、气息运用、情感变化和演唱细节。通过智能划分乐句与停顿位置,并结合精确的乐段识别,生成的人声在自然度、呼吸感和结构清晰度上更接近真人演唱,尤其在处理中文韵律和气息时效果突出。

MoE-TTS:面向自然语言描述的语音合成框架

昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

在语音技术方向,昆仑万维推出 MoE-TTS,定位于开放描述(Out-of-domain Descriptions)场景的研究型语音合成框架。该技术允许用户以自然语言描述声音特征(如“清澈的少年音带磁性尾韵”)来精准控制声音风格。

昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

MoE-TTS 结合预训练大语言模型(LLM)的文本处理能力与语音专家模块(Speech Expert Modules),通过模态路由实现文本与语音的独立优化,并在冻结文本参数的同时对齐跨模态信息,从而提升对复杂修辞和开放语义的泛化理解能力。

昆仑万维发布 Mureka V7.5 与 MoE-TTS 技术

在域内与域外的双测试集评测中,MoE-TTS 在风格贴合度(SEA)和整体贴合度(OA)等指标上优于部分主流闭源 TTS 系统。昆仑万维计划将 MoE-TTS 集成至 Mureka-Speech 平台,作为角色配音的基座模型向全球开发者开放。

通过 Mureka V7.5 与 MoE-TTS 的发布,昆仑万维在音乐与语音生成领域同时推进模型能力与应用场景,为后续在数字人、虚拟助手和沉浸式内容创作方向的落地提供技术基础。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/12354

(0)
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注