OpenAI推出新一代转录与语音生成AI模型

2025年03月21日 由 daydream 发表 4575 0

OpenAI在其API中引入了新的转录和语音生成AI模型,旨在改进其先前版本的功能。


微信截图_20250321103315


这些新模型符合OpenAI更广泛的“代理”愿景,即构建能够代表用户独立完成任务的自动化系统。OpenAI产品负责人Olivier Godement表示,未来几个月将看到更多这样的代理出现,重点是帮助客户和开发者利用这些实用、可用且准确的代理。


新的文本转语音模型名为“gpt-4o-mini-tts”,它不仅能生成更细腻、更逼真的语音,而且更具“可控性”。开发者可以用自然语言指示该模型如何发音,例如要求它以“疯狂科学家的口吻”或“像冥想老师一样平和的声音”说话。


OpenAI的产品团队成员Jeff Harris指出,目标是让开发者能够定制语音的“体验”和“情境”。在不同的情境下,人们不希望听到单调、无变化的声音。例如,在客户支持场景中,如果需要表达歉意,语音可以相应地带有这种情绪。


至于新的语音转文本模型,“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它们将取代公司长期使用的Whisper转录模型。OpenAI声称,新模型在“多样、高质量的音频数据集”上进行了训练,能够更好地捕捉带有口音和多样化的语音,即使在嘈杂环境中也能表现出色。


Harris补充说,新模型在减少“幻觉”方面也有所改进。Whisper有时会编造词语甚至整段对话,导致转录中出现不准确的内容。新模型在这方面有了显著提升,确保准确捕捉实际听到的词语,不添加未听到的细节。


然而,不同语言的转录效果可能存在差异。根据OpenAI的内部基准测试,更准确的转录模型“gpt-4o-transcribe”在印地语和德拉维达语系语言(如泰米尔语、泰卢固语、马拉雅拉姆语和坎纳达语)上的“词错率”接近30%。


与以往不同,OpenAI不打算公开发布其新的转录模型。该公司历史上曾在新版本的Whisper发布时采用MIT许可证供商业使用。Harris表示,新模型比Whisper“大得多”,因此不适合公开发布。它们不像Whisper那样可以在本地笔记本电脑上运行。OpenAI希望在未来开源发布时更加谨慎,并针对特定需求进行优化。

文章来源:https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消