大模型之家讯 8 月 4 日,小米正式开源声音理解大模型MiDashengLM-7B,该模型在22个公开测评集上刷新多模态SOTA,单样本首Token 延迟(TTFT)为业界先进模型1/4,同等显存下数据吞吐效率超20倍。模型基于 Xiaomi Dasheng 音频编码器与 Qwen2.5-Omni-7B 解码器构建,实现语音、环境声、音乐的统一理解,可捕捉声学特征与隐藏语义,已在小米智能家居、汽车座舱等领域落地30多个应用。其训练数据100%来自公开资源,技术报告及模型参数已在GitHub、Hugging Face等平台开源,推动跨场景音频智能技术普及。