摩根大通宣布推出用于多模态文档理解的DocLLM

2024年01月04日由 camellia 发表 674 0

摩根大通推出了DocLLM，这是一款为多模态文档理解设计的生成式语言模型。DocLLM作为轻量级的LLM（大型语言模型）扩展而引人注目，用于分析携带复杂语义的企业文档，包括表格、发票、报告、合同，这些文档在文本和空间模式的交汇点上具有复杂的语义。

与现有的多模态LLM不同，DocLLM有策略地避开了昂贵的图像编码器，专注于使用边界框信息来纳入空间布局结构。该模型通过将经典变换器中的注意力机制分解为一组独立的矩阵，引入了一个解耦的空间注意力机制。

DocLLM通过采用一种专注于学习填充文本段的预训练目标，来处理视觉文档中不规则的布局和异质内容的挑战。

模型具有解耦的空间注意力机制，该机制促进了文本与布局模态之间的交叉对齐，以及一个在有效处理不规则布局上熟练的填充预训练目标。

为了预训练DocLLM，数据是从两个主要来源收集的：IIT-CDIP测试集合1.0和DocBank。前者包含超过500万份文件，与20世纪90年代针对烟草行业的法律诉讼相关，而后者包含50万份文件，每份文件均具有不同的布局。

通过在各种文档智能任务上的广泛评估，证明了DocLLM比现有的最先进的LLM更加优秀。该模型在16个已知数据集中的14个上超越了同等模型，并且在5个设置中的4个中对之前未见过的数据集表现出了强大的泛化能力。

展望未来，摩根大通表达了其计划以轻量级的方式将视觉融入DocLLM，进一步增强其能力的承诺。

文章来源：https://analyticsindiamag.com/jpmorgan-announces-docllm-for-multimodal-document-understanding/

标签：

LLM DocLLM 摩根大通

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta团队推出全新AI视频生成模型FlowVid

下一篇微软将其小模型Phi-2更新为更宽松的MIT开源许可

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市