OpenAI推出新一代转录与语音生成AI模型

2025年03月21日由 daydream 发表 4923 0

OpenAI在其API中引入了新的转录和语音生成AI模型，旨在改进其先前版本的功能。

微信截图_20250321103315

这些新模型符合OpenAI更广泛的“代理”愿景，即构建能够代表用户独立完成任务的自动化系统。OpenAI产品负责人Olivier Godement表示，未来几个月将看到更多这样的代理出现，重点是帮助客户和开发者利用这些实用、可用且准确的代理。

新的文本转语音模型名为“gpt-4o-mini-tts”，它不仅能生成更细腻、更逼真的语音，而且更具“可控性”。开发者可以用自然语言指示该模型如何发音，例如要求它以“疯狂科学家的口吻”或“像冥想老师一样平和的声音”说话。

OpenAI的产品团队成员Jeff Harris指出，目标是让开发者能够定制语音的“体验”和“情境”。在不同的情境下，人们不希望听到单调、无变化的声音。例如，在客户支持场景中，如果需要表达歉意，语音可以相应地带有这种情绪。

至于新的语音转文本模型，“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，它们将取代公司长期使用的Whisper转录模型。OpenAI声称，新模型在“多样、高质量的音频数据集”上进行了训练，能够更好地捕捉带有口音和多样化的语音，即使在嘈杂环境中也能表现出色。

Harris补充说，新模型在减少“幻觉”方面也有所改进。Whisper有时会编造词语甚至整段对话，导致转录中出现不准确的内容。新模型在这方面有了显著提升，确保准确捕捉实际听到的词语，不添加未听到的细节。

然而，不同语言的转录效果可能存在差异。根据OpenAI的内部基准测试，更准确的转录模型“gpt-4o-transcribe”在印地语和德拉维达语系语言（如泰米尔语、泰卢固语、马拉雅拉姆语和坎纳达语）上的“词错率”接近30%。

与以往不同，OpenAI不打算公开发布其新的转录模型。该公司历史上曾在新版本的Whisper发布时采用MIT许可证供商业使用。Harris表示，新模型比Whisper“大得多”，因此不适合公开发布。它们不像Whisper那样可以在本地笔记本电脑上运行。OpenAI希望在未来开源发布时更加谨慎，并针对特定需求进行优化。

文章来源：https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

标签：

OpenAI AI模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Google在Gmail搜索中引入AI技术，升级搜索结果排序方式

下一篇 Cloudflare推出“AI迷宫”对抗网络爬虫

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来