语言是人类交流的基础,情感也是如此。表达快乐、悲伤、愤怒、沮丧或其他感情有助于传达信息并连接我们。
尽管生成式人工智能在许多其他领域取得了巨大成功,但它难以捕捉这些细微差别并处理人类情感的复杂性。
利用人工智能创建合成声音和视频的初创公司Typecast表示,它正在通过新的Cross-Speaker Emotion Transfer技术在这个领域进行革命性创新。
该技术允许用户将从他人的声音中录制的情感应用于自己的声音,同时保持其独特风格,从而实现更快、更高效的内容创作。该技术通过Typecast的My Voice Maker功能现已提供。
“人工智能演员尚未完全捕捉到人类的情感范围,这是它们的最大限制因素。”总部位于韩国首尔的Neosapience和Typecast的首席执行官兼联合创始人Taesu Kim表示。
通过Typecast的Cross-Speaker Emotion Transfer,“任何人都可以根据自己声音的小样本使用具有真实情感深度的人工智能演员。”
理解情感
尽管情感通常可以分为幸福、悲伤、愤怒、恐惧、惊讶和厌恶等七个类别,但这还不足以表达生成语音中的各种情感,Kim指出。
他指出,说话不仅仅是给定文本和输出语音之间的一对一映射。
“人类可以用无数种方式说同一句话。我们还可以在同一句话(甚至同一个词)中表现出不同的情感。”他在接受采访时表示。
例如,将带有“以悲伤的声音,仿佛失望”这一情感提示的句子“你怎么这样对我?”与情感提示“像在责骂一样愤怒”进行录音将完全不同。
同样,情感提示“她因为父亲去世感到悲伤,但脸上带着微笑”是复杂的,不容易用一个给定的类别来定义。
“人类可以用不同的情感说话,这导致了丰富多样的对话。”Kim和其他研究人员在关于他们新技术的论文中写道。
情感文本转语音的局限性
文本转语音技术在短时间内取得了显著进展,由ChatGPT、LaMDA、LLama、Bard、Claude和其他主流和新进入者推动。
情感文本转语音也取得了可观的进展,但它需要大量的标记数据,而这些数据并不容易获取,Kim解释道。通过声音录制捕捉不同情感的微妙差别一直是耗时而艰巨的工作。
此外,“在保持情感的同时连续录制多个句子非常困难。”Kim和他的同事们写道。
他解释说,在传统的情感语音合成中,所有的训练数据都必须具有情感标签。这些方法通常需要额外的情感编码或参考音频。
但这带来了一个根本性的挑战,因为对于每种情感和每个说话者都必须有可用的数据。此外,由于难以提取强度,现有方法容易出现标签错误的问题。
当为一个说话者分配一个不可见的情感时,交叉说话者情感转移变得更加困难。迄今为止,该技术表现不佳,因为由中立的说话者而不是原始说话者产生情感语音是不自然的。另外,情感强度也往往无法控制。
“即使可能获取到一个情感语音数据集,在控制情感强度方面仍然存在限制。”Kim和他的研究人员同事写道。
利用深度神经网络和无监督学习
为了解决这个问题,研究人员首先将情感标签输入生成式深度神经网络中,Kim称之为世界首创。虽然成功,但这种方法还不足以表达复杂的情感和说话风格。
然后,研究人员建立了一个无监督学习算法,可以从一个大型数据库中辨别说话风格和情感。Kim表示,在训练过程中,整个模型没有使用任何情感标签进行训练。
这提供了给定语音的代表性数字。虽然对人类来说无法解释,但这些表示可以在文本转语音算法中用于表达数据库中存在的情感。
研究人员进一步训练了一个感知神经网络,将自然语言情感描述转化为表示。
Kim说:“有了这项技术,用户无需录制数百或数千种不同的说话风格/情感,因为它可以从一个包含各种情感声音的大型数据库中学习。”
从简短片段适应声音特征
研究人员通过利用潜在表示实现了“可转移和可控制的情感语音合成”。领域对抗训练和循环一致性损失将说话者与风格分离。
该技术通过分析和理解大量的人类录音声音(通过有声读物、视频和其他媒介)来学习情感模式、语调和语气。
Kim解释说,该方法可以仅通过少量标记样本将情感转移到中性朗读风格的说话者身上,情感强度可以通过简单直观的标量值进行控制。
他说,这有助于以自然的方式实现情感转移,而无需改变身份。用户只需录制自己声音的简短片段,然后应用各种情感和强度,人工智能可以适应特定的声音特征。
用户可以选择由其他人录制的不同类型的情感说话,并将该风格应用于自己的声音,同时保留自己独特的声音身份。通过仅录制自己五分钟的声音,即使以正常语调说话,也可以表达快乐、悲伤、愤怒或其他情感。
Typecast的技术已被三星集团子公司三星证券、韩国的LG电子等公司采用,并自2017年成立以来已筹集了26.8亿美元的资金。该初创公司目前正在努力将其核心语音合成技术应用于面部表情,Kim表示。
生成式人工智能中的可控性至关重要
Kim指出,媒体环境变化迅速。
在过去,基于文本的博客是最受欢迎的公司媒体格式。但现在,短视频居于主导地位,公司和个人必须更频繁地制作更多的音频和视频内容。
Kim说:“要传递公司信息,高质量、富有表现力的声音至关重要。”
快速、经济的内容制作至关重要,他补充说,人工演员的手工工作效率低下。
Kim表示:“生成式人工智能中的可控性对于内容创作至关重要。”他说:“我们相信这些技术能帮助普通人和公司释放创造力,并提高生产力。”