字节跳动与中科大联手提出多模态文档大模型DocPedia
要点:
字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。
DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。
训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。
字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。
在此研究中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率明显提高,达到2560×2560,而其他模型的上限仅为336×336,无法解析高分辨率文档图像。
论文地址:https://arxiv.org/pdf/2311.11810.pdf
DocPedia的性能得到了显著提升,尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示,DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容,并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息,甚至对手写文字的准确判断。
结合图像中的文本信息,DocPedia还可以利用其大模型推理能力,根据上下文分析问题,并回答图像中没有展示的扩展内容。
在DocPedia的训练过程中,研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段,大语言模型的视觉编码器部分被优化,以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练,包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化,并采用感知-理解联合训练策略,进一步提高了DocPedia的性能。
特别值得注意的是,DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下进行空间分辨率下采样,通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前,大大减少了token数量,提高了效率。
总体而言,DocPedia在多模态文档大模型领域取得了显著的突破,其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。
Airbnb 部署 AI 驱动的防聚会系统阻止「高风险」万圣节派对预订
根据政策,Airbnb禁止任何具有干扰性或开放邀请性质的聚集。该平台还禁止对周围社区造成干扰,包括过多的噪音、访客和垃圾。但是在假日周末,这项政策并不能总是阻止不良行为的发生。在美国各地的万圣节庆祝活动即将到来之际,人工智能技术或许能发挥作用。该平台于日前宣布,它正在美国和加拿大部署一个由AI驱动的防聚会系统,以帮助减少假期周末期间干扰性和未授权聚会的风险。站长网2023-10-27 22:14:510000周鸿祎训练数字人代替演讲!直言有危机感 不想被数字人“干掉”
快科技5月28日消息,近日,2023黑马AIGC产业大会在北京举行,有关注大会的同学可能发现了,360集团创始人周鸿祎是以数字人的方式出席大会。今日,周鸿祎表示,黑马的会因嗓子哑了不能到场,正好训练了一个数字人,派他替我演讲,听说他一出场观众都乐了,说比我本人温柔,看来他挺受欢迎。站长网2023-05-28 10:54:440000智谱AI发布中文 LLM 对齐评测基准AlignBench
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。站长网2023-12-12 16:39:510000YouTube 将为苹果 Vision Pro 开发专属应用
据国外媒体报道,YouTube已在规划苹果VisionPro专属的适配应用程序。YouTube发言人JessicaGibby表示:“我们很高兴看到VisionPro的发售,我们将通过确保用户在Safari上获得良好体验来支持它。我们目前没有任何具体计划可以分享,但可以确认VisionPro应用已在我们的规划之中。”站长网2024-02-07 11:39:180000泛货架GMV大涨383%,快手电商“万人团”卖爆年货节
快手达人“腊月小九”的首次直播带货,赶上了年货季。直播间里,“腊月小九”上架了近120个单品链接,包括智利进口车厘子、南美白虾、大白兔奶糖、纯牛奶、坚果礼盒等多种年货好物,以颇具吸引力的价格单场累计带货数十万元。作为直播新手,“腊月小九”能组出价格优惠且质量靠谱的货盘,背后原因是快手商城年货节推出的“万人团”玩法,简单说就是快手招募一批优质特价商品,通过达人直播间、短视频、商城货架等场景分销。站长网2024-02-14 12:56:550000