微软的UniLM AI在摘要和语言生成领域登顶NO.1
2019年10月17日 由 TGS 发表
457546
0
语言模型前训练技术可以通过让机器学习系统根据上下文来预测单词,从而“教”机器学习系统将文本表示逻辑化,这种技术已经在一系列自然语言处理目标上取得了进展。然而,像谷歌BERT这样的模型在设计上是双向的,并不适合通过大量修改来生成自然语言的任务。为了打破这种局限,微软研究院的科学家们研究了一种被称为统一预训练语言模型(UniLM)的替代方法,它可以完成单向、序列到序列和双向预测任务,并且可以对自然语言理解和生成进行微调。
微软的研究人员声称,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩,在普遍的基准上可以与BERT相媲美,性能堪称前所未有,达到了最先进的地步。
UniLM是一个以多层网络为核心的网络,它由Transformer AI模型组成,这些模型联合可以对大量文本进行预处理,并对语言建模进行优化。变压器包含相互连接的神经元(函数),能输入数据传输信号并调整每个连接的强度(权重)。几乎所有的人工智能系统都是这样提取特征并学习做出预测的,变压器的不同之处在于,每个输出元素都能连接到每个输入元素,权重实行动态计算模式。
根据研究人员的说法,预先训练的UniLM与BERT类似,它可以进行微调,如果需要,还可以添加特定于任务的层,以适应各种下游任务。但是与BERT不同,UniLM可以使用不同的自我注意掩码进行配置,从而为不同类型的语言模型聚合上下文。此外,由于它们的训练前性质是统一的,所以变压器网络可以共享参数,这使得学习的文本表示更加通用,从而减轻了对所有单个任务的过度拟合。
研究人员使用来自英语维基百科和开放源代码图书语料库的文章进行了预训练,这些文章的词汇量合计为28,996个,研究人员报告称,UniLM在语言任务中的表现令人印象深刻,在Glue基准和两个问答数据集上取得了与Bert相当的结果,并且在五个自然语言生成数据集上超越了先前的最新模型——Gigaword(摘要)、Squad(问题生成)、Coqa(生成性问题回答)和Dstc7(对话响应生成)。
微软团队表示,在未来的工作中,他们将通过 “网络规模”的文本语料库训练更大的模型,来挑战目前方法的极限。此外,他们还希望可以研究扩展UniLM以支持跨语言任务。
代码和预训练模型链接:
https://github.com/microsoft/unilm