小米开源MiDashengLM-7B:22项测评登顶SOTA,声音理解效率跃升20倍

大模型之家讯 8 月 4 日,小米正式开源声音理解大模型MiDashengLM-7B,该模型在22个公开测评集上刷新多模态SOTA,单样本首Token 延迟(TTFT)为业界先进模型1/4,同等显存下数据吞吐效率超20倍。模型基于 Xiaomi Dasheng 音频编码器与 Qwen2.5-Omni-7B 解码器构建,实现语音、环境声、音乐的统一理解,可捕捉声学特征与隐藏语义,已在小米智能家居、汽车座舱等领域落地30多个应用。其训练数据100%来自公开资源,技术报告及模型参数已在GitHub、Hugging Face等平台开源,推动跨场景音频智能技术普及。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注