亚马逊人工智能研究院的一组人工智能研究人员宣布开发了一种他们描述为史上最大的文本转语音模型。这里的“最大”是指参数最多、训练数据集最大。他们已经在arXiv预印本服务器上发布了一篇论文,描述了该模型的开发和训练过程。
像ChatGPT这样的LLM(大型语言模型)因其像人类一样智能地回答问题和创建高级文档的能力而备受关注。但人工智能仍在进入其他主流应用的过程中。在这项新的研究中,研究人员试图通过增加参数数量和扩展训练基础来提高文本转语音应用程序的能力。
这个名为“具有新兴能力的大型自适应流式TTS”(简称BASE TTS)的新模型有9.8亿个参数,并使用10万小时记录的语音(来自公共网站)进行训练,其中大部分是英语。该团队还向其提供了其他语言的发音单词和短语的示例,以便模型在遇到它们时能正确发音——例如,“au contraire”或“adios,amigo”。
亚马逊团队还在较小的数据集上测试了该模型,希望了解它在人工智能新兴质量领域的发展,在这种新兴质量中,无论是LLM还是文本转语音应用程序,人工智能应用程序似乎突然突破了更高层次的智能。他们发现,对于他们的应用程序来说,一个中等规模的数据集是向更高水平跳跃的地方。
他们还指出,这次飞跃涉及一系列语言属性,如使用复合名词的能力、表达情感的能力、使用外来词的能力、应用副语言和标点符号的能力以及在句子中强调正确单词来提问的能力。
该团队表示,BASE TTS不会向公众发布——他们担心它可能会被不道德地使用。相反,他们计划将其用作学习应用程序。他们期望将迄今为止所学到的知识应用于提高文本转语音应用程序的整体人声质量。