摩根大通宣布推出用于多模态文档理解的DocLLM

2024年01月04日 由 camellia 发表 500 0

摩根大通推出了DocLLM,这是一款为多模态文档理解设计的生成式语言模型。DocLLM作为轻量级的LLM(大型语言模型)扩展而引人注目,用于分析携带复杂语义的企业文档,包括表格、发票、报告、合同,这些文档在文本和空间模式的交汇点上具有复杂的语义。


2


与现有的多模态LLM不同,DocLLM有策略地避开了昂贵的图像编码器,专注于使用边界框信息来纳入空间布局结构。该模型通过将经典变换器中的注意力机制分解为一组独立的矩阵,引入了一个解耦的空间注意力机制。


DocLLM通过采用一种专注于学习填充文本段的预训练目标,来处理视觉文档中不规则的布局和异质内容的挑战。


模型具有解耦的空间注意力机制,该机制促进了文本与布局模态之间的交叉对齐,以及一个在有效处理不规则布局上熟练的填充预训练目标。


为了预训练DocLLM,数据是从两个主要来源收集的:IIT-CDIP测试集合1.0和DocBank。前者包含超过500万份文件,与20世纪90年代针对烟草行业的法律诉讼相关,而后者包含50万份文件,每份文件均具有不同的布局。


通过在各种文档智能任务上的广泛评估,证明了DocLLM比现有的最先进的LLM更加优秀。该模型在16个已知数据集中的14个上超越了同等模型,并且在5个设置中的4个中对之前未见过的数据集表现出了强大的泛化能力。


展望未来,摩根大通表达了其计划以轻量级的方式将视觉融入DocLLM,进一步增强其能力的承诺。

文章来源:https://analyticsindiamag.com/jpmorgan-announces-docllm-for-multimodal-document-understanding/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消