有声书迎来了新篇章。
来自微软、麻省理工学院和古登堡项目的研究人员宣布了一项倡议,将自然语音的AI生成技术应用于从兰德尔·加勒特的《几句话之后》到《祖特与其他巴黎人》等书籍中。
自动化有声书制作并不是什么新鲜事,它已经存在了很多年。但是在arXiv预印本《大规模自动有声书制作》中,详细介绍了一种新的方法,利用最新一代神经网络文本到语音技术生成更加逼真的语音,同时节省时间和成本。
现有的公有领域有声书往往受到机械化朗读的影响。这种新方法将通过独特的情感细微差别生成更加生动逼真的朗读。
微软的软件工程师布兰登·沃尔什表示:“我们使用自动说话人和情感推断系统,根据上下文动态改变朗读声音和语调。”
叙述部分是由一个声音朗读,而故事中的角色对话是由不同的声音朗读。语气和说话风格由神经推断系统确定。
沃尔什说:“这使得包含多个角色和情感对话的段落更加逼真和引人入胜。”
用户可以根据个人口味调整声音、音调、速度和语调。
研究人员指出,他们正在准备一个现场演示,让公众能够以自己的声音生成有声书。只需要少量声音样本即可生成完整音频。
《华尔街日报》去年四月的报道称,DeepZen有限公司一直在利用已故演员爱德华·赫尔曼的声音样本为许多最近的有声书进行叙述。有趣的是,赫尔曼去世已经将近十年了。
但是通过生成式AI技术,他的声音样本被用来准确地构建流畅的对话,完全具备与已故演员的实际声音录音几乎无法区分的自然语调。
古登堡项目已在网上发布了大约5000本书,总共35000小时的演讲。任何人都可以登录并收听,该服务是免费的。
他们很快将向用户提供录制自己书籍的选项。用户通过读几句话来完成一个声音配置文件。古登堡项目将生成一个由AI生成的声音,用户可以立即收听。
用户可以以自己的声音朗读前言或献词,然后上传完整的书籍文本。完成后,用户将收到一封包含有声书链接的电子邮件。
以后,当妈妈必须加班无法给她7岁的儿子读床头故事时,他只需打开自己最喜欢的有声书,就能听到妈妈舒慰的声音为他带来冒险故事。
或者,有抱负的演员可以通过将自己进行角色扮演,在莎士比亚剧中用自己的声音为角色栩栩如生地演绎,为朋友们快速制作礼物。
而且,如果与参与方在法律上可以很好合作,谁不会选择泰勒·斯威夫特、阿诺德·施瓦辛格或摩根·弗里曼的声音来叙述自己的小说呢?