摩根大通宣布推出用于多模态文档理解的DocLLM

站长网2024-01-03 14:37:572阅

站长之家（ChinaZ.com）1月3日消息:近日，摩根大通推出了DocLLM，这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展，用于分析企业文档，涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。

与现有的多模态LLM不同，DocLLM策略性地避免了昂贵的图像编码器，专注于边界框信息，以融入空间布局结构。该模型引入了一个分离的空间注意机制，通过将经典变压器中的注意机制分解为一组分离的矩阵。

DocLLM通过采用一个以学习填充文本片段为重点的预训练目标，来处理视觉文档中的不规则布局和异构内容。

该模型具有一个分离的空间注意机制，促进文本和布局模态之间的交叉对齐，以及一个擅长有效处理不规则布局的填充预训练目标。

在预训练DocLLM时，数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件，而后者包括50万份具有独特布局的文件。

对各种文档智能任务进行广泛评估显示，DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。

可见，未来摩根大通将以轻量级方式将视觉融入DocLLM，并进一步增强其能力的承诺。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

摩根大通宣布推出用于多模态文档理解的DocLLM

0002

评论列表

共(0)条

相关推荐

站长资讯
泡泡玛特回应盲盒规范指引：将积极配合监管部门落实相关细则
针对“市监管总局发布盲盒规范指引”一事，泡泡玛特回应称，未来会积极配合监管部门落实指引相关细则。昨日早些时候，市场监管总局印发《盲盒经营行为规范指引（试行）》。指引指出，盲盒经营者提供商品或者服务应当明码标价，不得收取任何未予标明的费用，不得在标价之外加价出售商品，不得实施不按规定明码标价、哄抬价格、价格欺诈等违法行为。
站长网2023-06-16 16:20:40
0000
《纽约时报》起诉微软和 ChatGPT 开发商 OpenAI，指控侵犯版权并滥用其知识产权
纽约时报于当地时间周三对微软和流行的人工智能聊天机器人ChatGPT的开发者OpenAI提起诉讼，指控这些公司侵犯版权，并滥用报纸的知识产权来训练大型语言模型。微软既是OpenAI的投资者，也是其供应商，为其提供Azure云计算技术的访问。
站长网站长资讯2023-12-28 10:32:39
0000
站长资讯
谷歌团队推出大型多模态生成模型可处理多模态生物医学数据
尽管人工智能（AI）系统取得了重大进展，但大多数现有的最先进(SOTA)系统都是单模态单任务系统，这对开发医疗人工智能系统提出了挑战，因为医疗任务本质上是多模态且模式丰富涵盖文本、成像、基因组学等。
站长网2023-08-05 16:26:36
0000
站长资讯
30万以上车型销量榜：问界M9干掉BBA全系车型夺得第一
快科技12月15日消息，易车榜日前根据乘联分会零售数据，发布了11月份30万以上车型销量榜。榜单显示，问界M9在11月销售16409辆，超过BBA全系车型，成为30万以上的销冠车型。自去年12月底发布以来，问界M9累计大定已突破18万台，成为中国豪华车销冠（30万元以上），凭借一己之力改写了国内豪华市场由BBA品牌主导的竞争格局。
站长网2024-12-15 14:46:20
0000
苹果客服回应iOS18相册被吐槽：如不适应会进行优化
9月17日，苹果公司为iPhone用户推出了iOS18正式版更新。然而，更新后，一些用户对新相册布局和控制中心的变化表示不满，相关话题迅速在微博热搜榜上引起热议。
站长网站长资讯2024-09-19 10:32:42
0000