谷歌发布最新SGD新语料库,帮助智能助手更加智能
2019年10月29日 由 TGS 发表
874424
0
谷歌的研究人员在最近的一项研究中,试图在不用额外数据和再培训的情况下,让类似谷歌Assistant这样的人工智能助手,可以更好地支持新服务。该研究引入了一种方法,能够在没有领域特定参数的情况下跨服务使用模型,此外,该团队还发布了一个SGD语料库并对外声称,这是世界上最大的、面向任务对话的公开汇编。
软件工程师Abhinav Rastogi和谷歌研究工程负责人Pranav Khaitan在博客中写道:“今天的虚拟助理可以帮助用户完成各种各样的任务,包括寻找航班、搜索附近的事件或电影、预订东西或者是服务、从网络上获取信息等等。但是,尽管取得了巨大的进步,可适应性挑战却还是在最先进的模型中被时常忽视。具体原因是,缺乏合适的数据集来匹配虚拟助理所面临的规模和复杂性。”
为此,SGD语料库包含了18000多个人与虚拟助理之间的带注释对话,涉及与17个领域的服务交互。对于大多数领域,数据集包含几个不同的API,其中许多API具有重叠的功能,但是不同接口分别反映了典型的真实场景。评估集包含了训练集中没有的服务,主要用于量化模型对API变化或新API添加的健壮性。
至于前面提到的模式指导方法,它可以利用每个服务或API及其相关属性的自然语言描述来学习分布式语义表示,该语义表示作为对话系统的额外输入,能够作为单个模型实现。
该团队表示,统一模型是谷歌开源对话状态跟踪模型的核心,它促进了不同服务中相似概念之间的公共知识表示,使得对培训数据中没有的新服务进行操作成为了可能。Rastogi和Khaitan在文章的最后写道:“我们相信,这个语料库数据集将成为建立大规模对话模型的良好基准,所以,我们非常兴奋,并期待着,研究界将以各种创新的方式,利用它来推进对话技术。”
数据集是AI模型训练的必要因素之一,它能为模型提供极为丰富的知识以及经验,数据集越大,所蕴含的信息就越多,对模型的帮助也就越多。谷歌公开表示,新模型以及新数据集——SGD语料库的发布,能够帮助自然语言系统建模技术向前迈进一大步。