LeCun曝多模态LLM重大缺陷 提出Interleaved-MoF显著增强视觉理解能力
要点:
多模态大语言模型(MLLM)在视觉处理方面存在重大缺陷,特别是在处理视觉模式上的性能差距明显。
研究团队通过将DINOv2特征与CLIP特征结合的方法提升了多模态大模型的视觉功能,创造性地解决了视觉缺陷问题。
提出的「交错特征混合(Interleaved-MoF)」方法在MMVP基准中获得了10.7%的能力增强,显著提升了多模态大模型的视觉基础能力。
近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型(MLLM)领域取得了重要突破,成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现,当前的MLLM在特定场景下,甚至在一些人类容易识别的图像问题上,表现不如随机猜测。这些问题包括对图像中朝向、状态、数量等基本要素的识别,显示了MLLM在视觉处理方面的局限性。
论文地址:https://arxiv.org/pdf/2401.06209.pdf
这项研究的关键发现是,MLLM的视觉缺陷主要源自「对比语言-图像预训练盲对(CLIP-blind pairs)」,即CLIP模型编码相似但在视觉上不同的图像,导致误导性的视觉嵌入。研究人员通过评估多个开源和闭源模型的性能发现,除少数模型外,大多数MLLM在视觉模式识别上都表现不佳,与人类视觉能力存在显著性能差距。
为解决这一问题,研究团队提出了「交错特征混合(Interleaved-MoF)」方法,将CLIP和DINOv2嵌入进行交错混合,成功提升了MLLM的视觉基础能力。实验证明,这种方法在MMVP基准中取得了10.7%的能力增强,而且不影响模型遵循指令的能力。通过此研究,对MLLM在视觉方面的性能提升打开了新的思路,为未来多模态AI技术的发展提供了有益的启示。
这项研究对于解决当前MLLM在视觉理解方面的缺陷问题具有重要意义。通过深入分析CLIP模型的视觉模式和MLLM性能之间的相关性,研究团队不仅提出了问题,还通过「交错特征混合」方法取得了实质性的改进。这不仅对AI领域的研究有着积极的推动作用,也为未来开发更强大、全面的多模态大模型奠定了基础。
腾讯视频将上线“无障碍剧场”,视障人士可免费 观看600余部经典影视作品
12月3日,第32个国际残疾人日,腾讯视频与中国盲文出版社、中国盲文图书馆联合宣布,腾讯视频将于2024年初上线“无障碍剧场”专区,通过各方共享版权影视内容、共同制作影视作品无障碍版,分批次上线600余部热门经典影视作品的无障碍版本,为广大视障人士提供免费观影服务,丰富他们的精神文化生活。0000GPT-4 API曝出重大漏洞 一句prompt就能提取私人信息
要点:FARAI实验室的团队成功通过微调、函数调用和搜索增强等方向,在GPT-4API中发现了重大安全漏洞,使其容易越狱。通过对GPT-4进行15个有害样本和100个良性样本的微调,研究人员能够让模型生成错误的公众人物信息、提取私人信息,并在代码中插入恶意URL,暴露了潜在的隐私风险。站长网2023-12-27 14:19:530000冠军奖金达3万:阿里云面向全球召开AI黑客编程大赛
快科技6月5日消息,今天,阿里云官方宣布,将以阿里旗下,国内最大AI模型社区魔搭”为基础,举办首届AI黑客马拉松挑战赛。此次大赛面向全球开发者,最终胜出的队伍最高将获得3万元人民币的奖金,并有望与其他团队共享千万美元的风投基金池。根据阿里云官方介绍,此次大赛中,将有魔搭社区为参赛队伍提供用于模型训练推理和demo部署展示的资源。站长网2023-06-06 10:35:340000南方电网发布电力行业首个自主可控电力大模型
9月26日,南方电网公司在广州召开了电力行业人工智能创新平台及自主可控电力大模型发布会。南方电网公司发布了电力行业人工智能创新平台,并同时发布了该平台的首个产品——电力大模型。站长网2023-09-27 15:33:110000加拿大 AI 初创公司 Tenstorrent 与 LG 电子合作打造人工智能和 RISC-V 芯片
加拿大人工智能计算机设计初创公司Tenstorrent周二宣布与韩国消费电子公司LG电子合作,共同打造用于智能电视、汽车产品和数据中心的芯片。站长网2023-05-31 10:46:210000