北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人
要点:
北大和中山大学研究者提出的Chat-UniVi是一种统一的视觉语言大模型,能够在统一的视觉表征下同时处理图片和视频任务,且仅需三天训练即可获得130亿参数的通用视觉语言大模型。
Chat-UniVi采用动态视觉token来统一表示图片和视频,通过最近邻的密度峰聚类算法获取动态视觉token,多尺度表征提高了模型的性能,使其在图片和视频的各种任务中取得卓越性能。
Chat-UniVi在图片、视频理解以及问答任务等多个实验中表现卓越,使用更少的视觉token达到了与其他大模型相媲美的性能水平,同时开源了代码、数据集和模型权重。
近日,北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型,实现了统一的视觉表征,使其能够同时处理图片和视频任务。这一框架的独特之处在于,它不仅在深度学习任务中表现卓越,而且仅需短短三天的训练时间,就能够训练出具有130亿参数的通用视觉语言大模型。
项目地址:https://github.com/PKU-YuanGroup/Chat-UniVi
Chat-UniVi的核心方法是采用动态视觉token,通过最近邻的密度峰聚类算法来获取这些动态token。这一方法极大地减少了视觉token的数量,降低了模型的训练和推理成本。研究人员通过实验证明,Chat-UniVi在图片理解、视频理解、问答等多个任务中都表现出色,甚至在较小的参数量下也能超越其他大型模型。
文章还详细介绍了Chat-UniVi的训练过程,分为多模态预训练和联合指令微调两个阶段。这一两阶段的训练策略使得模型能够在混合数据集上进行训练,无需对模型结构进行修改,展现了其在多任务学习上的灵活性和高效性。
Chat-UniVi的成功实验结果包括在图片理解、视频理解、问答等多个任务中都超越了先进的方法。而其在幻觉评估上的优越性更是引人注目,证明了采用动态视觉token和多尺度表征的有效性。
综合而言,Chat-UniVi的提出为视觉语言模型的研究领域带来了新的思路,通过统一的视觉表征实现了对多模态数据的高效处理,为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。
每年电费2亿?ChatGPT每天竟然要消耗1.7万个家庭的用电量
AI技术作为当今科技领域的热门话题之一,然而,最近有关ChatGPT每年耗费2亿电费、日耗电量相当于1.7万个家庭的报道引发了人们对AI技术电力消耗的关注。一篇论文指出,AI数据中心的用电量在未来将会与小国相当,而谷歌等公司每天处理的搜索请求也会带来大量的能耗。AI技术的电力消耗问题日益受到关注,需要监管机构的介入和企业的积极应对。站长网2024-03-11 15:27:060000每周AI大事件 | 盘古大模型3.0来了、ChatGPT网站流量首次下降、国内大模型北京占一半
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]盘古大模型3.0今日发布站长网2023-07-08 02:52:410002软银创始人计划筹集1000亿美元,创建人工智能芯片公司与Nvidia竞争
**划重点:**1.🚀软银集团创始人孙正义计划通过项目伊邪那岐(ProjectIzanagi)筹集1000亿美元,创建人工智能芯片公司,旨在与Nvidia竞争。2.🧠项目旨在为人工通用智能(AGI)的发展做出贡献,孙正义对AGI充满热情,并认为在未来10年内AGI将成为现实。站长网2024-02-18 11:55:410000三花智控:人工智能是未来发展的方向,机器换人终将实现
三花智控在最新披露的投资者关系活动记录表中表示,人工智能是未来发展的方向,机器换人终将实现。公司已对机器人机电执行器领域展开持续研究和产品开发工作,已与多个客户建立合作并具备先发优势,未来可期。0000腾讯发布2023年第二季度财报:营收1492亿元 同比增长11%
腾讯控股在2023年第二季度表现出强劲的财务业绩,营收达到1492亿元,同比增长11%,净利润为261.7亿元,同比增长41%。在国际财务报告准则下,腾讯的净利润为375.48亿元,同比增长33%。站长网2023-08-16 17:05:570000