字节跳动与中科大联手提出多模态文档大模型DocPedia
要点:
字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。
DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。
训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。
字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。
在此研究中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率明显提高,达到2560×2560,而其他模型的上限仅为336×336,无法解析高分辨率文档图像。
论文地址:https://arxiv.org/pdf/2311.11810.pdf
DocPedia的性能得到了显著提升,尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示,DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容,并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息,甚至对手写文字的准确判断。
结合图像中的文本信息,DocPedia还可以利用其大模型推理能力,根据上下文分析问题,并回答图像中没有展示的扩展内容。
在DocPedia的训练过程中,研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段,大语言模型的视觉编码器部分被优化,以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练,包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化,并采用感知-理解联合训练策略,进一步提高了DocPedia的性能。
特别值得注意的是,DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下进行空间分辨率下采样,通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前,大大减少了token数量,提高了效率。
总体而言,DocPedia在多模态文档大模型领域取得了显著的突破,其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。
外国博主,还能“坐地吸金”吗?
“给外国人一点小小的亚运震撼。”随着国庆假期的结束,杭州亚运会也落下了帷幕。这场长达15日的盛会,外国人作为其中的显眼包,让不少杭州人体验了一把“无痛出国”,“外国人来亚运会进货”“还不如一个外国人会讲价”“在哪里能偶遇中东富豪”等话题也频频在社交平台刷新存在感。站长网2023-10-09 17:51:380002阿里巴巴张勇谈人工智能:有旧行业将消失 新的行业也会涌现
在近日的2023阿里巴巴罗汉堂数字经济年会上,在谈到人工智能带来的挑战时,阿里巴巴张勇表示,“人工智能的发展可以类比移动互联网。目前所有行业,包括制造业、交通业、金融业等,都会在AI的加持下不断升级。虽然有一些行业和岗位可能会受到影响,但随着技术的不断落地,旧的行业将会消失,新的行业也会涌现。”站长网2023-06-21 15:13:150000华为宣布启动交通大模型研发 创立交通大模型联合研究中心
华为技术有限公司联合云南省交通投资建设集团有限公司以及长安大学在昆明举行了“交通大模型研发启动仪式”,开启人工智能大模型技术在交通领域的研究探索。通过盘古基础大模型叠加交通行业场景的方式,开展交通大模型研究,通过深度挖掘现有数据潜能,加速推动交通行业的数智化发展。华为表示,将持续助力云南交投集团全面推进公路数字化转型,为全国交通行业打造数智发展样板。0000苹果或推出AI应用商店 预计在6月的WWDC上发布
根据最新的消息,苹果计划在即将到来的WWDC2024上,向全球展示其融入AI元素的全新系统和软件。MeliusResearch的主管BenReitzes在接受CNBC的采访时透露,苹果有可能在6月的WWDC上推出一个全新的AI应用商店。这个应用商店预计会包含来自各大供应商的AI应用,为开发者和用户提供一个丰富的选择。站长网2024-03-26 10:51:060000Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4
**划重点:**1.🌐VicunaMakers的研究团队成功构建了一个只有130亿参数的小型语言模型(LLM),在性能上与OpenAI的GPT-4相媲美。2.🔄利用新工具LLMDecontaminator,研究人员通过改写测试集,使得LLM能够在主要基准测试中达到GPT-4的性能水平。站长网2023-11-17 10:04:580000