摩根大通推出了DocLLM,这是一款为多模态文档理解设计的生成式语言模型。DocLLM作为轻量级的LLM(大型语言模型)扩展而引人注目,用于分析携带复杂语义的企业文档,包括表格、发票、报告、合同,这些文档在文本和空间模式的交汇点上具有复杂的语义。
与现有的多模态LLM不同,DocLLM有策略地避开了昂贵的图像编码器,专注于使用边界框信息来纳入空间布局结构。该模型通过将经典变换器中的注意力机制分解为一组独立的矩阵,引入了一个解耦的空间注意力机制。
DocLLM通过采用一种专注于学习填充文本段的预训练目标,来处理视觉文档中不规则的布局和异质内容的挑战。
模型具有解耦的空间注意力机制,该机制促进了文本与布局模态之间的交叉对齐,以及一个在有效处理不规则布局上熟练的填充预训练目标。
为了预训练DocLLM,数据是从两个主要来源收集的:IIT-CDIP测试集合1.0和DocBank。前者包含超过500万份文件,与20世纪90年代针对烟草行业的法律诉讼相关,而后者包含50万份文件,每份文件均具有不同的布局。
通过在各种文档智能任务上的广泛评估,证明了DocLLM比现有的最先进的LLM更加优秀。该模型在16个已知数据集中的14个上超越了同等模型,并且在5个设置中的4个中对之前未见过的数据集表现出了强大的泛化能力。
展望未来,摩根大通表达了其计划以轻量级的方式将视觉融入DocLLM,进一步增强其能力的承诺。