小米开源MiDashengLM-7B：22项测评登顶SOTA，声音理解效率跃升20倍

大模型之家讯 8 月 4 日，小米正式开源声音理解大模型MiDashengLM-7B，该模型在22个公开测评集上刷新多模态SOTA，单样本首Token 延迟（TTFT）为业界先进模型1/4，同等显存下数据吞吐效率超20倍。模型基于 Xiaomi Dasheng 音频编码器与 Qwen2.5-Omni-7B 解码器构建，实现语音、环境声、音乐的统一理解，可捕捉声学特征与隐藏语义，已在小米智能家居、汽车座舱等领域落地30多个应用。其训练数据100%来自公开资源，技术报告及模型参数已在GitHub、Hugging Face等平台开源，推动跨场景音频智能技术普及。

小米开源MiDashengLM-7B：22项测评登顶SOTA，声音理解效率跃升20倍

发表回复