谷歌的人工智能语言模型可以处理整部小说
2020年01月17日 由 TGS 发表
176062
0
无论是语言、音乐、语音还是视频,序列数据对于人工智能和机器学习模型来说都不容易理解——特别是当它依赖于广泛的周围环境时。例如,如果一个人或一个物体从视频中消失,然后在很长一段时间后才重新出现,许多算法就会忘记它的外观。
谷歌的研究员开始用Transformer来解决这个问题,Transformer是一种可以扩展到数千个单词的架构,它显著提高了歌曲合成、图像合成、逐句文本翻译和文档摘要等任务的性能。
目前的Transformer并不完美,将其扩展到更大的环境中就会发现它的局限性。使用大型窗口的应用程序对内存的要求从gb到tb不等,这意味着模型只能读取几段文本或生成一小段音乐。
因此,Google之后推出了Reformer,以作为Transformer的一个演进,旨在处理多达100万字的上下文窗口。通过利用诸如局部敏感散列和可逆剩余层之类的技术来有效地使用存储器并减少长序列上的复杂度,它能够在仅使用16GB内存的单个AI加速器芯片上运行。
与所有的深度神经网络一样,变压器包含神经元,它们被安排在相互连接的层中,传输来自输入数据的信号,并缓慢地调整每个连接的突触强度(权重)。所有的人工智能模型都是这样提取特征并学习做出预测的,但Transformer的独特之处在于,它将每个输出元素都连接到每个输入元素。实际上,它们之间的权重是动态计算的。
然后,Reformer计算散列函数来匹配类似的向量,而不是搜索所有可能的向量对。当分配哈希值时,序列将被重新安排,将具有相同哈希值的元素放在一起,并将其分成若干段,以支持并行处理,将注意力放在更短的片段及其相邻的片段上,从而大大减少计算负载。
Reformer还会根据需要重新计算每个层的输入,而不是将其存储在内存中,这得益于可逆内存。研究团队进行了实验,利用这些模型生成图像中缺失的细节,并处理小说《罪与罚》。结果表明,该方法能逐像素生成全帧图像,并能在单轮训练中获得小说长度的文本。