LeCun曝多模态LLM重大缺陷 提出Interleaved-MoF显著增强视觉理解能力
要点:
多模态大语言模型(MLLM)在视觉处理方面存在重大缺陷,特别是在处理视觉模式上的性能差距明显。
研究团队通过将DINOv2特征与CLIP特征结合的方法提升了多模态大模型的视觉功能,创造性地解决了视觉缺陷问题。
提出的「交错特征混合(Interleaved-MoF)」方法在MMVP基准中获得了10.7%的能力增强,显著提升了多模态大模型的视觉基础能力。
近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型(MLLM)领域取得了重要突破,成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现,当前的MLLM在特定场景下,甚至在一些人类容易识别的图像问题上,表现不如随机猜测。这些问题包括对图像中朝向、状态、数量等基本要素的识别,显示了MLLM在视觉处理方面的局限性。

论文地址:https://arxiv.org/pdf/2401.06209.pdf
这项研究的关键发现是,MLLM的视觉缺陷主要源自「对比语言-图像预训练盲对(CLIP-blind pairs)」,即CLIP模型编码相似但在视觉上不同的图像,导致误导性的视觉嵌入。研究人员通过评估多个开源和闭源模型的性能发现,除少数模型外,大多数MLLM在视觉模式识别上都表现不佳,与人类视觉能力存在显著性能差距。
为解决这一问题,研究团队提出了「交错特征混合(Interleaved-MoF)」方法,将CLIP和DINOv2嵌入进行交错混合,成功提升了MLLM的视觉基础能力。实验证明,这种方法在MMVP基准中取得了10.7%的能力增强,而且不影响模型遵循指令的能力。通过此研究,对MLLM在视觉方面的性能提升打开了新的思路,为未来多模态AI技术的发展提供了有益的启示。
这项研究对于解决当前MLLM在视觉理解方面的缺陷问题具有重要意义。通过深入分析CLIP模型的视觉模式和MLLM性能之间的相关性,研究团队不仅提出了问题,还通过「交错特征混合」方法取得了实质性的改进。这不仅对AI领域的研究有着积极的推动作用,也为未来开发更强大、全面的多模态大模型奠定了基础。
大V用自动洗车机给小米SU7洗车 本想省50结果亏了5000块
快科技5月9日消息,新车如果要洗车的话,你会选择自动洗车机还是人工洗呢,下文这位大V博主就用自己的小米SU7以身试法,揭示了自动洗车机的坑车”之处。据其介绍,他上周把他的小米SU7开到了机械自动洗车机去洗车,本想省个50块的洗车费,结果洗完车发现亏大了。0000谷歌推出新的 AI 模型 LearnLM,专注于教育领域
划重点:-🤖LearnLM是谷歌基于其型语言模型Gemini开发的一系列AI模型,旨在帮助学生解决作业问题和提高学习果。-📚LearnLM可以在不同的方式(如照片或视频)中找到和展示专题的例子,辅导学生习,并激发学习的兴趣。站长网2024-05-15 11:49:160000Gemini上线首日:用户褒贬不一,演示被质疑「造假」,谷歌承认了
又不求融资,怎么也给demo加美颜?「谷歌,这就有点尴尬了。」没有想到,Gemini上线头一天,热门评论会是这个样子。本周三,谷歌的Gemini让生成式AI进入了原生多模态时代。人们第一时间涌入新模型加持的Bard想要试试AI的能力,结果给出的评价褒贬不一。其中最值得注意的是有人指出,Gemini在发布时,谷歌给出的一系列Demo中最令人眼花缭乱的部分是伪造的。站长网2023-12-08 18:51:340001马斯克xAI计划建造一座“超级计算工厂” 挑战Meta大规模GPU集群
划重点:⭐️马斯克计划在2025年秋季建立xAI公司的AI超级计算机,使用Nvidia图形卡,预计规模将是目前Meta等竞争对手使用的最强集群的四倍以上。⭐️超级计算机将采用NvidiaH100GPU,马斯克亲自保证其及时完成。站长网2024-05-28 19:35:450000三星电子与半导体设计领域传奇人物 Jim Keller 合作开发人工智能芯片
三星电子的半导体外包部门SamsungFoundry正在与全球人工智能市场领先的半导体初创公司展开芯片研究项目。根据7月19日的行业消息,三星Foundry最近与美国人工智能半导体初创公司Tenstorrent和Groq启动了研发项目。Foundry部门内的FoundryDesignServices团队负责这些研究任务。站长网2023-07-20 19:04:370000