摩根大通宣布推出用于多模态文档理解的DocLLM
站长网2024-01-03 14:37:572阅
站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。
与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。
DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。
该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。
在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。
对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。
可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。
论文地址:https://arxiv.org/pdf/2401.00908.pdf
0002
评论列表
共(0)条相关推荐
天津大学大模型评测报告:GPT-4和百度文心一言显著领先
8月12日,天津大学和信创海河实验室举办了一次大模型技术与评测研讨会,会上发布了首份大模型评测报告。该报告对国内外14个大语言模型进行了中文综合能力评测,结果显示,GPT-4和百度文心一言相对于其他模型综合性能领先。站长网2023-08-15 08:42:200001抖音推出种草产品有柿App 由头条搜索升级而来
据Tech星球报道,近日,“头条搜索”APP升级并改名为“有柿”APP,这是一款生活经验类的社区型产品,其口号为:分享生活,好“柿”成双。据应用介绍显示,有柿APP可为用户发现更多真实有用经验,提供更优质产品体验,目前这些经验包括美食攻略、生活经验、实用技能、和其他海量生活内容等。站长网2023-04-23 14:26:370001Anthropic预计年收入将达8.5亿美元,挑战OpenAI地位
**划重点:**1.📈AnthropicPBC计划于2024年底实现8.5亿美元年化收入,较三个月前的预测大幅增长。2.🤝Anthropic由Amazon和Google支持,旗下模型Claude2挑战ChatGPT,能处理高达10万令牌的复杂提示。3.💰公司正在进行额外的7.5亿美元融资轮,由MenloVentures主导,将使Anthropic的估值达到150亿美元。0000亚马逊平台涌现大量 AI 生成的虚假旅行指南
本文概要:1.AI生成的旅行指南在亚马逊上泛滥成灾,虚假声称是著名作家撰写。2.旅行指南内含通用信息,价格低廉,部分附加虚假五星级评论。3.亚马逊需要加强审核机制,以防止AI生成的欺诈产品进入市场。站长网2023-08-08 10:21:490000