大模型之家讯 近日,Arxiv 页面显示,阿里巴巴发布了一款名为 Qwen-Audio 的音频语言模型。该模型旨在通过扩大音频语言预训练范围,涵盖超过 30 个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以实现通用音频理解能力。研究显示,Qwen-Audio 在多样基准任务上实现了显著的性能,无需进行任务特定微调。
大模型之家讯 近日,Arxiv 页面显示,阿里巴巴发布了一款名为 Qwen-Audio 的音频语言模型。该模型旨在通过扩大音频语言预训练范围,涵盖超过 30 个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以实现通用音频理解能力。研究显示,Qwen-Audio 在多样基准任务上实现了显著的性能,无需进行任务特定微调。