摩根大通宣布推出用于多模态文档理解的DocLLM
站长网2024-01-03 14:37:572阅
站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。
与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。
DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。
该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。
在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。
对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。
可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。
论文地址:https://arxiv.org/pdf/2401.00908.pdf
0002
评论列表
共(0)条相关推荐
句子互动融到新钱:真是漫长的准备,一扫私域融资寒冬!
句子互动近日完成数百万美元Pre-A轮融资时,或许没想到,这个动作给行业注入了新活力和希望。近1年来,和私域SaaS、运营工具相关的融资几乎进入寒冬,业界罕有消息传出。但自此开始,行业似乎开启了新的融资周期。“我们一直坚信Chatbot会成为未来营销的基础设施和重要的人机交互窗口,为此我们等了7年”。句子互动创始人李佳芮这样提及他们此前的漫长准备。站长网2023-06-15 19:51:420000沃尔玛押注AI服务 帮助用户更快选购货物
划重点:1.🏠沃尔玛计划通过AI技术实现全自动杂货补货服务,使冰箱始终充满食物,用户无需亲自购物。2.🤖AI将通过学习用户购物习惯和沃尔玛整体销售数据,自动生成个性化的购物清单,并通过InHome服务将所需物品送到用户家中。3.🚀沃尔玛积极投资于AI技术,推出iOS应用的生成式AI搜索引擎,使用户能够通过更广泛的查询方式轻松搜索商品。站长网2024-01-10 11:03:220000苹果明日凌晨发布第四财季财报 营收有望实现增长
据外媒报道,苹果公司将于美国时间11月2日发布2023财年第四财季的财报。这一季度通常是苹果营收开始回升的时期,尤其在秋季新iPhone上市的推动下,营收预计将较上一财季更高。分析师们的平均营收预期为892.5亿美元,范围在878亿到921亿美元之间。苹果在上一财年的第四财季营收为901.46亿美元,因此分析师们预计苹果在2023财年第四财季的营收同比也有望增长。站长网2023-11-02 11:00:230000普华永道通过OpenAI 合作 率先在审计公司中集成人工智能
普华永道最近宣布,它将与OpenAI合作,利用人工智能技术来提高公司的工作效率和客户服务质量。根据报道,这标志着四大会计师事务所中,首家与OpenAI建立合作关系的公司。普华永道计划使用AI系统来执行tasks,例如尽职调查、识别合规问题、审批交易等。站长网2023-10-18 21:22:210000免费提供Netflix剧集!鸭奈飞影视网站作者被抓 称会把鸭奈飞带上正路
"鸭奈飞影视"公众号的作者在周五上午将接受法律的审判。他可能面临高达24万的罚金,或者被判入狱两到三年。该公众号被描述为一个专注于为国内用户提供免费Netflix剧的平台。它以其快速的资源更新速度和无弹窗广告、无水印的特点而受到用户的喜爱,并且支持蓝光画质。然而,去年9月,该公众号就发文表示,由于各项成本过高,导致入不敷出。0001