让视觉模型具备语言理解能力:通过跨模型对齐实现文本到概念的转换
如果你只需要训练一个线性层,就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型 (VLM),结果会怎样?有研究人员想到了这个办法。
研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量,以便直接比较单词和图像的表示。他们的方法调整了视觉模型的表示空间,使其与 CLIP 模型的表示空间相一致。CLIP 模型是同时训练图像和文本编码器的,因此它已经包含了用于文本到概念的文本编码器。
该方法通过学习表示空间之间的映射来使用商用模型的这种能力。具体来说,研究人员最大化一个函数,以推断出图像在 CLIP 模型中的表示,该模型使用了预训练模型的表示,并将其映射到 CLIP 模型的表示。经过映射后,对应的特征将存在于与目标文本的概念向量相同的空间中。然而,映射函数可能会严重改变输入的语义。为了避免这种情况,他们确保映射的假设空间中只存在仿射变换。尽管它们看起来不太复杂,但研究人员发现线性层意外地对于在架构和训练方法不同的模型之间实现特征空间对齐非常有用。
项目地址:https://github.com/k1rezaei/Text-to-concept/
该方法在文本到概念的零样本分类方面提供了强大的支持。与 CLIP 模型相比,这些商用模型在许多任务上展示出惊人的零样本准确性,尽管它们的规模更小,使用的样本更少,并且没有显式地针对文本到概念进行调整。令人惊讶的是,在某些情况下,尤其是在颜色识别方面,商用模型的零样本准确性甚至超过了 CLIP 模型。
文本到概念的可解释性好处不仅仅在于免费的零样本学习,还包括将视觉编码器转换为概念瓶颈模型 (CBM) 而无需概念监督的需求。研究人员将这种方法应用于 RIVAL10数据集,该数据集包含属性标签,以确保零样本概念预测的准确性。借助所提出的零样本方法,他们能够高度准确地预测 RIVAL10的属性 (93.8%),从而实现了预期的可解释性好处。
他们的研究还证明了文本到概念可以用人类术语解释大型数据集的分布,通过分析一系列文本到概念向量与数据的对齐表示之间的相似性。通过比较对易理解的概念的变化,可以诊断出分布的变化。基于概念的图片检索是文本到概念的另一种方法,它可以方便地与大型数据集进行交互。研究人员使用概念逻辑来查询给定模型的图像表示,满足一组概念相似性阈值,从而使人们更加掌握搜索中每个概念的相对权重,并在庞大的语料库中定位特定照片时获得可接受的结果。
最后,研究人员引入了概念到文本的方法,直接解码模型表示空间中的向量,完成人机交流的循环。他们使用现有的 CLIP 空间解码器和嵌入来指导 GPT-2的输出,在将模型的空间与 CLIP 对齐后进行解码。然后,他们使用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。结果表明,他们的简单方法在92% 的测试中都取得了成功。
消息称AI初创公司Anthropic计划融资7.5亿美元
**划重点:**1.💰融资规模:Anthropic公司由前OpenAI员工于2021年创立,目前正与硅谷风险投资公司MenloVentures进行高级谈判,计划融资7.5亿美元,估值或达184亿美元,有望成为人工智能领域的重要参与者。0000AI日报:对标GPT-4o!开源大模型Moshi登场;Google Pixel 9新增多个AI功能;ElevenLabs发布消音神器VOICE ISOLATOR
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、对标GPT-4o!开源大模型Moshi震撼登场站长网2024-07-04 15:20:130002iPad Pro拥抱OLED:明年初量产 包含11和13英寸两种尺寸
据媒体报道,苹果供应链计划在2024年第一季度开始量产iPadPro所需的OLED面板,其中包括11英寸和13英寸两种尺寸。目前,11英寸iPadPro采用LCD屏幕,而12.9英寸iPadPro则采用miniLED屏幕,但未来苹果将全部转向OLED屏幕。站长网2023-07-10 09:15:410000重庆首个自主研发的大语言模型“兆言”发布
7月13日,上海交通大学重庆人工智能研究院在西部(重庆)科学城发布其最新研发成果“兆言”大模型产品。据了解,兆言大模型是上海交大重庆人工智能研究院基于全球领先的AI大模型技术研发出的最新成果,它的建立是通过积累海量数据,辅以独特的数据处理和AI训练技术,以达到精准、专业的文本输出,并且能够实现以自然语言选择、调用应用程序的能力,助力打造个性化的智能产品。站长网2023-07-14 16:31:090000AI 初创公司 Pika 募集 5500 万美元资金,推出 AI 驱动视频编辑平台
站长网2023-11-29 10:58:490000