中国研究人员推ImageBind-LLM:通过ImageBind实现LLM的多模态指令调优方法
文章概要:
- 中国研究人员最近取得了在大型语言模型(LLM)指令调整领域的显着进展。
- ImageBind-LLM是一种多模态指令调优方法,通过ImageBind进行大型语言模型的微调,能够响应多种形式的输入指令。
- 该模型使用视觉语言数据来调整多模态指令,特别建议仅使用视觉语言数据进行调整。
研究人员最近在大型语言模型(LLM)的指令调整方面取得了令人瞩目的进展。这一发现对于提高通用语言模型的性能和多模态指令响应能力具有重要意义。
图源备注:图片由AI生成,图片授权服务商Midjourney
虽然通用语言模型如ChatGPT和GPT-4在语言和视觉理解方面已经取得了显著进展,但由于闭源限制,它们仍然无法实现完全的复制。因此,研究人员提出了一种使用自行生成的数据来修改可公开访问的LLaMA(语言指令模型)的方法,以解决这一问题。
为了实现多模态指令调优,研究人员推出了ImageBind-LLM,这是一种通过ImageBind进行大型语言模型的微调的方法。本研究来自上海人工智能实验室、香港中文大学MMLab和vivo AI实验室的作者介绍了ImageBind-LLM多模态指令跟随模型,该模型在预训练的ImageBind中的联合嵌入空间的方向下有效地微调LLaMA。
与之前的视觉指令模型不同,ImageBind-LLM可以响应多种形式的输入指令,而不仅仅是图片。这意味着它具有更好的可扩展性和泛化能力。
ImageBind的关键在于其图像对齐多模态嵌入空间,因此研究人员建议仅使用视觉语言数据来调整多模态指令。对于图片-标题对,他们首先使用ImageBind的冻结图像编码器提取全局图像特征,然后使用可学习的绑定网络进行嵌入转换。这些转换后的图片特征随后应用于LLaMA中的所有转换器层单词标记,从而创建了用于生成适当文本标题的视觉上下文。与之前的零初始化注意力机制不同,他们的视觉注入机制更加简单,并通过可训练的零初始化门控因子进行加权。
此外,研究人员还提出了一种基于视觉缓存的方法,用于在推理过程中进行嵌入增强,以解决图像训练和文本、音频、3D或视频条件下的模态差异。这个缓存模型包括了由ImageBind检索的训练数据集中的数百万图片特征,通过获得可比较的视觉特征(Tip-Adapter),提升了文本/音频/3D/视频嵌入的质量。这意味着对于多模态指令的口头回应质量更高。
ImageBind-LLM展示了四个关键特点:
1. 支持多种模式的指令,包括图片、文本、音频、3D点云和视频。
2. 实现了高效的调优方法,包括图像编码器冻结和参数高效方法的使用。
3. 使用可学习的门控方法进行渐进性知识注入,更为高效。
4. 提供了来自图像特征的视觉缓存模型,用于增强嵌入以解决训练和推理之间的模态差异。
这项研究的成果为大型语言模型的多模态指令响应能力提供了新的方法和思路,具有重要的实际应用潜力。
项目网址:https://github.com/OpenGVLab/LLaMA-Adapter
论文网址:https://arxiv.org/abs/2309.03905
周鸿祎训练数字人代替演讲!直言有危机感 不想被数字人“干掉”
快科技5月28日消息,近日,2023黑马AIGC产业大会在北京举行,有关注大会的同学可能发现了,360集团创始人周鸿祎是以数字人的方式出席大会。今日,周鸿祎表示,黑马的会因嗓子哑了不能到场,正好训练了一个数字人,派他替我演讲,听说他一出场观众都乐了,说比我本人温柔,看来他挺受欢迎。站长网2023-05-28 10:54:440000北京民营企业科技创新百强榜发布!百度居首、小米第四
北京民营企业科技创新百强榜单发布9月26日,北京市工商联公布了2024年北京民营企业科技创新百强榜单。榜单评选以2023年企业营收、研发投入、研发强度和研发人员等核心指标为依据,并考量企业的合规经营和诚信度等因素。最终,百强企业脱颖而出。百度公司拔得头筹,彰显其科技创新实力。李彦宏曾在央视采访中表示,百度高度重视技术,研发费用多年来一直占收入的20%以上。0000华为申请ADNCHAT商标
天眼查App显示,近日,华为技术有限公司申请注册2枚“ADNCHAT”商标,国际分类为科学仪器、网站服务,目前商标状态均为申请中。据介绍,自动驾驶网络(ADN)是华为通信网络2030的核心战略,为网络的最终使用者提供“零等待、零接触、零故障”的新型数字化网络服务体验,为网络的运营运维者打造“自配置、自修复、自优化”的智能网络和高效运维能力,是华为持之以恒所追求的目标。站长网2023-07-18 03:17:010001测试发现,ChatGPT选股表现优于标准普尔500指数股票投资组合
ChatGPT会成为你的下一个基金经理吗?金融比较网站Finder.com发现,在八周的时间里,ChatGPT挑选的一个虚拟股票组合的表现优于标准普尔500指数——美国500家最有价值公司的名单。该投资组合在3月6日至4月28日期间上涨了4.9%,而同期英国十大领先投资基金的平均亏损为0.8%。相比之下,标准普尔500指数仅上涨了3%。站长网2023-05-09 10:47:440000《赛博朋克2077》使用人工智能替代已故配音演员
要点:1.CDProjektSA使用人工智能技术在其最新游戏中重现已故声优MiłogostReczek的声音。2.MiłogostReczek是一位2021年去世的知名波兰声优,他的声音由AI算法在CDProjekt的Cyberpunk2077游戏的波兰语版本中再现。站长网2023-10-13 10:23:270000