NVIDIA 定制语音 AI 技术,提升电信业客户的使用体验
2023年05月31日 由 Susan 发表
756003
0
为客户提供最佳客户体验,许多大型电信服务提供商的老客户所没有的。以Jack事件为例,他的电话被搁置了10分钟,这使他上班迟到了。与他交谈过的第三位经纪人吉尔阅读了前一位经纪人提供的简短说明,但理解起来有些困难。所以,她向Jack询问了一些问题来澄清。由于没有同事,Gill查阅了多份政策文件,以解决Jack的问题。几个资源以后,Gill找到了必要的信息,但不幸的是,Jack那边已经挂断电话了。
长时间等待、复杂的服务请求和个性化服务不足是客户面临的一些常见问题,导致不满和流失。为了克服这些挑战,电信业正在转向 AI 技术——具体而言是会话式 AI 技术,这种技术利用语音、翻译和自然语言处理(NLP)来促进类似于人类交互的对话。
本文探讨了为什么会话式 AI 系统是必不可少的,以及为什么在下游任务的最佳性能中具有高水平的转录准确性非常重要。我们解释了 Quantiphi 使用的 NVIDIA Riva 语音识别定制技术,以提高转录准确性。
对话式 AI 系统的准确性
在电信公司联系中心中,高度准确的会话式 AI 系统之所以至关重要,有很多原因。会话式 AI 系统可以帮助客服代表从通话互动中提取有价值的信息并做出明智的决策,从而提高服务质量和客户体验。
会话式 AI 系统中的一个关键组成部分是自动语音识别 (ASR),也被称为语音识别或语音到文本。电信公司联系中心的下游任务严重依赖于由 ASR 系统提供的准确转录。这些任务涵盖了各种各样的应用,例如:
快速而准确的响应对于高效和有效的客户服务至关重要。这意味着减少各个组件(包括自动语音识别)的总延迟非常重要。通过减少完成任务所需的时间,联系中心代表可以提供及时的解决方案,从而增强客户满意度和忠诚度。
此外,包括标点符号的准确转录可以增强可读性。清晰、标点准确的转录有助于代表更好地理解客户问题,促进清晰的沟通和问题解决。反过来,这提高了客户互动的总体效率和效果。
NVIDIA Riva自动语音识别管道
语音识别接收音频流作为输入,将其转录,并将转录文本作为输出(图1)。首先,音频流经过音频特征提取器和预处理器,去除噪声并在频谱图或梅尔频谱图中捕获音频频谱特征。然后,声学模型和语言模型一起将语音转录为文本。标点符号被添加到转录的文本中以提高可读性。
图1.端到端自动语音识别管道图
ASR 系统的性能评估指标
ASR 系统的性能可以使用三个指标来衡量:
- 准确性是根本,因为它直接影响转录的质量和可靠性。通过诸如文字错误率之类的指标来衡量准确性 (回答),我们可以根据系统转录口语的能力来评估系统。低工作报酬率对联络中心至关重要,因为它确保准确记录客户的查询和互动,使代理能够提供准确和适当的答复。
- 潜伏期是生成一段音频的抄本所需的时间。为了保持引人入胜的体验,标题应该在不超过几百毫秒的延迟时间内传递。抄写系统必须在最短的时间内提供标题。低延迟确保无缝和引人入胜的客户体验,提高整体效率和客户满意度。
- 在足够的计算基础设施上开发和运行转录服务的成本是另一个重要的衡量标准。虽然以口译员为基础的转录比口译员便宜,但成本必须与其他因素一起权衡。
在联系中心的环境中,转录系统必须具备高准确度,提供低延迟的客户互动,考虑成本因素以确保为组织提供具有成本效益和可行性的解决方案。通过优化这三个指标,转录系统可以有效地支持联系中心运营,并增强客户服务的提供。
提高 ASR 准确性的方法
如图2所示,有几种技术可用于实现特定领域的最佳转录准确性,其中最简单的技术是单词加权。自动语音识别单词加权涉及向模型传递一份重要的、可能是特定领域的词汇清单作为附加输入。这使得ASR模块能够在推理过程中识别这些词汇。
图2.跨 ASR 管道的自定义
在大多数情况下,某些名词(例如公司或服务名称)要么不在词汇表中,要么经常被自动语音识别模型误识别。这些名词被添加到被加权的单词列表中。这个策略使我们能够在请求时轻松提高特定词汇的识别率。
此外,Quantiphi团队:
- 在我们自己的自定义数据集上重新训练语言模型,以使 ASR 引擎适应特定于领域的术语和短语。
- 微调声学模型,使 ASR 引擎适应特定的口音和嘈杂的环境。
定制的语音辅助对话 AI 系统
电信行业客户联络中心面临的最重大挑战之一是解决复杂查询所需的时间很长。代理通常需要咨询多个利益相关者和内部策略文档来响应复杂的查询。
对话式 AI 系统提供相关文档、见解和建议,从而使联络中心座席能够加快解决客户查询的速度。
用于自定义语音辅助对话 AI 管道的 Quantiphi 解决方案体系结构涉及以下内容:
- 语音识别管道:通过捕获口语并将其转换为文本来创建听录
- 意图槽模型:识别用户意图
- 语义搜索管道:通过对话框管理器检索代理查询的答案
Quantiphi 构建了一个语义搜索引擎和一个问答解决方案(图 3)。它检索给定查询的最相关文档,并为电信联络中心座席生成简明答案。
图3.带有语义搜索引擎的Quantiphi问答解决方案
ASR 与问答 (QnA) 系统结合使用,也用于虚拟代理和基于头像的聊天机器人。ASR 转录本的准确性对代理辅助、虚拟代理和基于头像的聊天机器人的准确性有重大影响,因为它们是由检索增强生成 (RAG) 管道生成的响应的输入。即使查询的转录方式略有差异,也可能导致生成模型提供不正确的响应。
Quantiphi团队尝试了现成的ASR模型,这些模型有时无法正确转录专有名词。当 ASR 转录与问答管道结合使用时,它的质量至关重要,如以下示例所示:
查询:什么是5G?
ASR 成绩单:什么是五克。
发电机响应: 五大是你在工厂工作一个月可以赚到的钱。
正确响应:5G是下一代无线技术。它将比4G LTE更快,更可靠,更安全。
为了克服这些问题,我们使用了单词提升、反向文本规范化、自定义词汇、训练语言模型和微调声学模型。
单词提升
诸如mMTC和MEC之类的单词(或首字母缩略词)经常被错误地转录。我们已经在单词提升的帮助下解决了这个问题。请考虑以下示例:
单词提升之前
多轴边缘计算,也称为MEG,是一种在网络边缘提供云计算能力和IT服务环境的网络架构。
Mtc Fis 一个服务区,提供深度覆盖的低带宽连接。
单词提升后
多接入边缘计算也称为MEC,是一种在网络边缘提供云计算能力和IT服务环境的网络架构。
mMTC 是一个服务区,提供深度覆盖的低带宽连接。
之前和之后显示了响应如何变化,即使 n 元语法的表示方式略有不同。通过反向文本规范化,ASR 模型将“5g”等单词转录为“<>G”,从而提高 QnA 管道在此过程中的性能。
将自定义词汇
大多数用例通常具有某些特定于域的单词和与之关联的行话。为了将这些单词包含在 ASR 输出中,我们将它们添加到词汇表中并重新生成了 ASR 模型。有关更多详细信息,请参阅教程如何使用词典映射自定义 Riva ASR 词汇和发音。
训练 n 元语法语言模型
QnA 任务中存在的上下文通常构成文本语料库的良好源,用于训练 n 元语法语言模型。自定义的语言模型会产生更容易接受域中通常出现的单词序列的 ASR 输出。我们使用 NVIDIA NeMo 脚本来训练 KenLM 模型,并在构建时将其与 ASR 模型集成。
微调声学模型
为了进一步提高 ASR 性能,我们使用 10-100 小时的小块(5-15 秒)音频数据及其相应的真实文本微调了 ASR 声学模型。这有助于声学模型拾取区域口音。我们使用Riva Jupyter笔记本和NeMo进行微调。我们使用 nemo2riva 工具进一步将此检查点转换为 Riva 格式,并使用 riva-build 命令构建它。
关键要点
问答和见解提取构成了对话式解决方案,使电信客户服务代理能够提供个性化和高效的支持。这提高了客户满意度并减少了座席流失。若要实现高度准确的 QnA 和见解提取解决方案,必须提供高精度转录作为管道其余部分的输入。
Quantiphi 通过使用 NVIDIA Riva ASR 单词增强、反向文本规范化、自定义词汇、训练语言模型和微调声学模型来定制语音识别模型,实现了尽可能高的准确度。这是现成的解决方案无法实现的。
这对杰克和吉尔意味着什么?配备电信定制的语音辅助对话AI应用程序,吉尔可以快速扫描AI生成的杰克之前对话摘要。就在杰克问完问题时,她的屏幕上已经填充了最相关的文档,以解决杰克的查询。她迅速将信息传达给杰克。他决定以积极的反馈回答调查,并且仍然准时上班。
与 Quantiphi 的专家联系,全面探索对话式 AI 如何深刻地增强组织的客户体验。如果您有兴趣深入了解构建座席辅助解决方案的技术方面,请加入我们的网络研讨会,通过多语言语音 AI 自定义座席协助为电信联络中心座席提供支持。
来源:https://developer.nvidia.com/blog/enhancing-customer-experience-in-telecom-with-nvidia-customized-speech-ai/