摩根大通宣布推出用于多模态文档理解的DocLLM
站长网2024-01-03 14:37:572阅
站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。
与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。
DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。

该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。
在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。
对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。
可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。
论文地址:https://arxiv.org/pdf/2401.00908.pdf
0002
评论列表
共(0)条相关推荐
泡泡玛特回应盲盒规范指引:将积极配合监管部门落实相关细则
针对“市监管总局发布盲盒规范指引”一事,泡泡玛特回应称,未来会积极配合监管部门落实指引相关细则。昨日早些时候,市场监管总局印发《盲盒经营行为规范指引(试行)》。指引指出,盲盒经营者提供商品或者服务应当明码标价,不得收取任何未予标明的费用,不得在标价之外加价出售商品,不得实施不按规定明码标价、哄抬价格、价格欺诈等违法行为。站长网2023-06-16 16:20:400000《纽约时报》起诉微软和 ChatGPT 开发商 OpenAI,指控侵犯版权并滥用其知识产权
纽约时报于当地时间周三对微软和流行的人工智能聊天机器人ChatGPT的开发者OpenAI提起诉讼,指控这些公司侵犯版权,并滥用报纸的知识产权来训练大型语言模型。微软既是OpenAI的投资者,也是其供应商,为其提供Azure云计算技术的访问。0000谷歌团队推出大型多模态生成模型 可处理多模态生物医学数据
尽管人工智能(AI)系统取得了重大进展,但大多数现有的最先进(SOTA)系统都是单模态单任务系统,这对开发医疗人工智能系统提出了挑战,因为医疗任务本质上是多模态且模式丰富涵盖文本、成像、基因组学等。站长网2023-08-05 16:26:36000030万以上车型销量榜:问界M9干掉BBA全系车型 夺得第一
快科技12月15日消息,易车榜日前根据乘联分会零售数据,发布了11月份30万以上车型销量榜。榜单显示,问界M9在11月销售16409辆,超过BBA全系车型,成为30万以上的销冠车型。自去年12月底发布以来,问界M9累计大定已突破18万台,成为中国豪华车销冠(30万元以上),凭借一己之力改写了国内豪华市场由BBA品牌主导的竞争格局。站长网2024-12-15 14:46:200000苹果客服回应iOS18相册被吐槽:如不适应会进行优化
9月17日,苹果公司为iPhone用户推出了iOS18正式版更新。然而,更新后,一些用户对新相册布局和控制中心的变化表示不满,相关话题迅速在微博热搜榜上引起热议。0000