谷歌大脑的AI实现了最先进的文本摘要功能
2019年12月24日 由 TGS 发表
276983
0
总结文本是一项机器学习算法正在改进的任务,微软最近发表的一篇论文表示,自动摘要系统可以帮助员工减少阅读信息的时间。近日,谷歌大脑和伦敦帝国理工学院的团队也构建了一个系统——在训练前使用提取出来的空白句子进行抽象摘要,该系统利用了谷歌的转换器架构,结合了为抽象文本生成定制的训练前目标。
他们说,这个AI在12个摘要任务中取得了最先进的成果,任务涵盖了新闻、科学、故事、指令、电子邮件、专利和立法法案,而且它在低资源摘要方面表现出了“惊人”的性能,仅用1000个示例就超过了6个数据集上的前几名。正如研究人员指出的那样,文本摘要旨在从输入文档中生成准确、简洁的摘要,而不是执行技术。
摘要不是简单地从输入中复制片段,而是可能产生新的单词或覆盖主要信息,从而使输出保持语言流畅。变形金刚是谷歌大脑研究人员在论文中介绍的一种神经结构,和所有的深度神经网络一样,它们包含的功能(神经元)被安排在相互连接的层中,这些层传递输入数据的信号,并可以缓慢地调整每个连接的突触强度(权重)——这是所有人工智能模型提取特征和学习做出预测的方式。
变形金刚的不同之处就在于,每个输出元素都连接到每个输入元素,并动态计算它们之间的权重。该团队设计了一项训练任务,在该任务中,文档中的重要句子被掩盖起来。人工智能必须通过网络和新闻文章来填补空白。研究小组选择了他们表现最好、有5.68亿个参数的模型,对从3.5亿个网页中提取的750GB文本进行了训练。
根据研究人员的说法,新的AI模型在流畅性和连贯性方面达到了很高的语言质量,而且它不需要采取措施来缓解不流畅。此外,它在只有100篇示例文章的低资源环境中生成的摘要,质量可与其它模型在20,000到200,000篇文章的完整数据集上训练的模型相媲美。