百度击败谷歌和微软,在AI语言领域夺冠
2019年12月30日 由 KING 发表
306652
0
百度最近开发了一种新的AI理解语言模型,该模型在被公认的通用语言理解评估基准测试(Glue)中击败了谷歌和微软,获得了有史以来最高的分数。
Glue由九种不同的测试组成,这些测试包括选择句子中的人物姓名,以及在存在多个潜在选项时弄清楚“ it”等代词的含义。在Glue量表上,人类的平均得分约为87分,百度是第一个得分超过90分的公司。百度把这种AI语言模型称为ERNIE(Enhanced Representation from kNowledge IntEgration)。研究人员一直在努力提高GLUE模型的性能,因此百度设定的当前标准可能很快就会过时。但是,使百度取得显著成就的是,他们使用的学习方法似乎能够推广到其他语言。即使该模型是为解释中文而开发的,但相同的原理仍使它更好的解释英语。ERNIE同样遵循BERT语言模型的发展。
BERT为双向模型设定了一种新的语言理解标准。以前的语言模型仅能够解释在一个“方向”上流动的数据,并将出现在目标单词之前或之后的单词视为上下文。BERT能够实现双向方法,该方法可以使用句子中的前一个词和后一个词来帮助弄清目标词的含义。BERT使用一种称为“掩蔽”的技术来进行双向分析,从而在句子中选择一个单词并将其隐藏,从而在前后上下文线索中拆分了该单词的可能上下文。
在英语中,单词是主要的语义单元,人们看整个单词而不是单个字符来辨别含义。可以从上下文中删除一个单词,并且仍然保持该单词的含义,而且各个字符的含义几乎总是相同的。相反,中文在识别含义时更多地依赖于字符如何与其他字符匹配。字符可能取决于周围的字符而具有不同的含义。百度研究团队从本质上采用了BERT使用的模型并对其进行了扩展,隐藏了字符串而不是完整的单词。还对AI系统进行了训练,以区分随机字符串和有意义的字符串,以便可以掩盖正确的字符串。这使ERNIE能够熟练地从文本文档中检索信息并进行机器翻译。研究团队还发现,他们的训练方法还造成了一个结果,该模型可以比许多其他模型更好地区分英语短语。这是因为英语有时(尽管很少)使用的单词组合在连接在一起时和单独使用时会表达不同的含义。
ERNIE利用多种其他培训技术来优化性能,包括在解释段落时分析句子顺序和距离。还使用一种连续的训练方法,该方法允许ERNIE训练新数据并学习新模式,而不会忘记以前获得的知识。
百度目前使用ERNIE来提高搜索结果的质量。ERNIE的最新架构将在即将在2020年人工智能促进协会会议上发表的论文中详细介绍。