让视觉模型具备语言理解能力:通过跨模型对齐实现文本到概念的转换
如果你只需要训练一个线性层,就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型 (VLM),结果会怎样?有研究人员想到了这个办法。
研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量,以便直接比较单词和图像的表示。他们的方法调整了视觉模型的表示空间,使其与 CLIP 模型的表示空间相一致。CLIP 模型是同时训练图像和文本编码器的,因此它已经包含了用于文本到概念的文本编码器。
该方法通过学习表示空间之间的映射来使用商用模型的这种能力。具体来说,研究人员最大化一个函数,以推断出图像在 CLIP 模型中的表示,该模型使用了预训练模型的表示,并将其映射到 CLIP 模型的表示。经过映射后,对应的特征将存在于与目标文本的概念向量相同的空间中。然而,映射函数可能会严重改变输入的语义。为了避免这种情况,他们确保映射的假设空间中只存在仿射变换。尽管它们看起来不太复杂,但研究人员发现线性层意外地对于在架构和训练方法不同的模型之间实现特征空间对齐非常有用。
项目地址:https://github.com/k1rezaei/Text-to-concept/
该方法在文本到概念的零样本分类方面提供了强大的支持。与 CLIP 模型相比,这些商用模型在许多任务上展示出惊人的零样本准确性,尽管它们的规模更小,使用的样本更少,并且没有显式地针对文本到概念进行调整。令人惊讶的是,在某些情况下,尤其是在颜色识别方面,商用模型的零样本准确性甚至超过了 CLIP 模型。
文本到概念的可解释性好处不仅仅在于免费的零样本学习,还包括将视觉编码器转换为概念瓶颈模型 (CBM) 而无需概念监督的需求。研究人员将这种方法应用于 RIVAL10数据集,该数据集包含属性标签,以确保零样本概念预测的准确性。借助所提出的零样本方法,他们能够高度准确地预测 RIVAL10的属性 (93.8%),从而实现了预期的可解释性好处。
他们的研究还证明了文本到概念可以用人类术语解释大型数据集的分布,通过分析一系列文本到概念向量与数据的对齐表示之间的相似性。通过比较对易理解的概念的变化,可以诊断出分布的变化。基于概念的图片检索是文本到概念的另一种方法,它可以方便地与大型数据集进行交互。研究人员使用概念逻辑来查询给定模型的图像表示,满足一组概念相似性阈值,从而使人们更加掌握搜索中每个概念的相对权重,并在庞大的语料库中定位特定照片时获得可接受的结果。
最后,研究人员引入了概念到文本的方法,直接解码模型表示空间中的向量,完成人机交流的循环。他们使用现有的 CLIP 空间解码器和嵌入来指导 GPT-2的输出,在将模型的空间与 CLIP 对齐后进行解码。然后,他们使用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。结果表明,他们的简单方法在92% 的测试中都取得了成功。
好莱坞机构与 AI 公司合作,保护名人形象权
划重点:⭐好莱坞机构与AI科技公司Veritone合作,建立数字化名人形象库。⭐CAAvault允许存储和许可名人的声音和形象,以促进商业合作。⭐合作旨在保护名人利益,防止AI滥用名人形象和声音。站长网2024-05-22 20:33:080000全国首例AI声音侵权案公开审理 一配音起诉魔音工坊APP、微软等五被告
12月12日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例“AI声音侵权案”。原告殷某某以配音为职业,曾录制多部有声作品。殷某某意外发现,自己的声音被AI化后,在一款名为“魔音工坊”的APP上以“魔小璇”的名义对外出售。因此,殷某某以被告行为侵害其声音权为由,将“魔音工坊”的运营主体北京小问智能科技有限公司等五被告起诉到北京互联网法院。0000OpenAI董事强调OpenAI在国家安全和监管问题上必须与政府合作
划重点🔍:1.OpenAI董事LarrySummers在接受采访时表示,OpenAI必须准备好与政府官员合作,处理监管、国家安全和技术发展等问题。2.Summers强调OpenAI的工作意义非凡,并强调公司应该以有社会责任感的方式运作。3.本文介绍了Summers在OpenAI董事会上的新角色,以及他对公司治理安全性的看法。站长网2023-12-04 14:29:1200002024年生成式AI支出将翻倍,到2027年将超1500亿美元
#划重点1.🚀2023年企业在生成式人工智能(GenAI)解决方案上的全球投资达194亿美元,预计将在2024年翻番。2.💹国际数据公司(IDC)预测,2023年至2027年期间,包括GenAI软件、相关硬件和服务在内的支出将在2027年达到1511亿美元,年均增长率为86.1%。0000Claude 3.5编程收入暴增10倍,抢走Cursor反杀OpenAI!估值180亿初创3年颠覆硅谷
OpenAI有许多紧追不舍的竞争对手,但没有哪家能像Anthropic这样让OpenAI的高管们寝食难安。曾几何时,AI编程既是OpenAI的优势领域,也是数百万用户订阅ChatGPT的主要原因之一。然而,就在今年7月,曾获得OpenAI800万美元投资的明星初创Cursor,毅然决然地将其AI编程助手的默认模型从GPT换成了Claude。站长网2024-12-16 09:26:170000