OpenAI重磅发布GPT-4o系列语音模型:重塑AI智能体未来格局

大模型之家讯 美东时间周四,OpenAI举行技术直播,推出三款新语音模型:语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本转语音模型GPT-4o MiniTTS。​这些模型在前代基础上取得显著进步,进一步接近OpenAI的AI智能体愿景。​

GPT-4o MiniTTS文本到语音模型能够生成更细腻、逼真的语音,并具备更高的可控性。​开发者可以使用自然语言指示模型的语音风格,例如“像疯狂的科学家一样说话”或“以平静的声音说话”。​OpenAI在官网提供了六种不同语气的示例,产品人员杰夫·哈里斯表示,目标是让开发者定制语音体验和环境。​

在语音转文本方面,GPT-4o Transcribe和GPT-4o MiniTranscribe的准确度明显高于之前的Whisper模型。​新模型经过多样化、高质量音频数据集训练,能够更好地捕捉口音和不同语音,即使在嘈杂环境中也能表现出色。​OpenAI表示,新模型在多种语言中的词错误率更低,幻觉概率也有所降低。​哈里斯强调,确保模型的准确性对于获得可靠的语音体验至关重要。​

这些模型的发布符合OpenAI构建AI智能体的愿景,即开发能够代表用户独立完成任务的自动化系统。​产品主管奥利维尔·戈德曼指出,未来几个月将会看到越来越多的AI智能体出现,帮助客户和开发者利用有用、可用且准确的智能体。​

与之前的Whisper模型不同,OpenAI并不打算公开发布新的转录模型。​哈里斯表示,GPT-4o Transcribe和GPT-4o MiniTranscribe比Whisper大得多,不适合公开发布。​他强调,开源发布需要深思熟虑,确保模型针对特定需求。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/9661

(0)
上一篇 2025年3月21日
下一篇 2025年3月21日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注