MOSS-TTSD震撼开源：百万小时训练打造AI播客新王者

大模型之家讯近日，由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)正式开源。这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。
目前，模型权重、推理代码和API接口已通过GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源，官方文档和在线体验Demo也已上线，为开发者提供便捷接入。

MOSS-TTSD震撼开源：百万小时训练打造AI播客新王者

发表回复