摩根大通宣布推出用于多模态文档理解的DocLLM
站长网2024-01-03 14:37:572阅
站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。
与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。
DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。

该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。
在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。
对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。
可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。
论文地址:https://arxiv.org/pdf/2401.00908.pdf
0002
评论列表
共(0)条相关推荐
AI视野:图文混合创作大模型浦语灵笔发布;微软GitHub Copilot每个用户倒赔20美元;AI天才杨植麟交卷大模型产品Kimi Chat;ChatGPT 移动应用9月收入创纪录
🤖📈💻💡大模型动态AI天才杨植麟交卷大模型产品KimiChat支持20万字长文本清华AI杨植麟创业公司MoonshotAI发布KimiChat,支持20万字长文本,解决大模型上下文窗口长度问题,旨在打造C端SuperApp。目前Claude支持最大长文本为100k(约8万字),而GPT-4则是32k(约2.5万字)。20万字,分别是它们的2.5倍和8倍。站长网2023-10-10 16:35:110002小米14系列已全量推送澎湃OS 2:流畅度、稳定性大增
11月23日,快科技消息称,小米系统软件部总监张国全表示,小米14系列已全部推送澎湃OS2系统。一些用户反映,小米14Pro升级后续航能力下降,发热问题加剧。对此,张国全解释,升级后系统会为内部数据建立索引库,以进行AI搜索,这一过程确实会消耗电量。索引库建立完成后,耗电量将恢复正常。提醒用户,遇到类似问题时不必惊慌,耐心等待即可。若问题持续,可提交用户反馈,小米工程师将及时处理。站长网2024-11-26 09:16:140000比亚迪为“宾利打人事件”劝架者奖励20万 送终身免费维修保养
在深圳总部,比亚迪近日举行了一场特殊的颁奖仪式,旨在表彰在“宾利打人事件”中勇敢站出来的车主——孙子见律师。这位车主的见义勇为行为,赢得了比亚迪品牌及公关处总经理李云飞的高度赞赏。李云飞亲自为孙律师颁发了税后20万元的奖金,并赠送了一张终身免费维修保养卡。这一举动不仅是对孙律师个人英勇行为的肯定,也体现了比亚迪对车主见义勇为行为的支持和鼓励。站长网2024-04-06 14:16:120000Nvidia 表示已有2万家 GenAI 初创公司正在其平台上开发
划重点:⭐Nvidia首席执行官JensenHuang强调,有20,000家GenAI初创公司正在其加速计算平台上开发。⭐需求激增导致Nvidia供应无法满足,首席执行官表示将持续到2024年。⭐Nvidia正积极推进以太网网络,以拓展人工智能计算领域。站长网2024-05-24 11:06:130000美国科技5巨头,研发狂烧2020亿刀!亚马逊732亿全球第一,Meta 30%占比最高
【新智元导读】根据2022年的科研经费排行榜,亚马逊、谷歌、Meta获得前三,但要论科研经费占收入比,Meta和英伟达则分别以30%、27%获得TOP2。最近,一张2022年纳斯达克Top10企业的研发支出图,突然火了。可以看到,亚马逊遥遥领先,以732亿美元取得榜首。谷歌母公司Alphabet以395亿美元紧随其后。研发经费全球第三是Meta,全年为353亿美元。站长网2024-01-15 16:04:510000