Vary-toy:具有高级视觉词汇视觉语音模型 适用于标准GPU
划重点:
📌 挑战与潜力:大型视觉语言模型(LVLMs)在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,但在图像感知能力方面仍有潜力待发。
📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而,模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。
📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy,通过优化视觉词汇创建过程,旨在提高LVLMs的图像感知能力。
在过去的一年里,大型视觉语言模型(LVLMs)已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。然而,LVLMs在图像感知能力方面仍有显著的提升潜力。
对于推动模型开发和实施,提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。
流行的LVLMs在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,如图像字幕、视觉问答(VQA)、模因理解和场景OCR,主要得益于出色的视觉词汇网络,如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而,无论架构如何,模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。
为了解决这个问题,研究人员提出了一种简单而有效的方法,通过使用较小的自回归模型(如OPT-125M)训练新的视觉词汇网络,并将其与现有词汇合并,创建最终的LVLM。然而,该方法存在缺点,包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。
MEGVII Technology的研究人员推出了Vary-toy,这是一个更小版本,旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型,适用于标准GPU。
Vary-toy沿用了Vary相同的流程,但优化了视觉词汇创建过程。他们不将自然图像视为负样本,而是将目标检测任务纳入词汇网络,结合密集的文本数据(PDF)和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后,他们将其与CLIP合并,并集成到一个1.8B语言模型中。
在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能,展示了其作为更小但强大的LVLM的潜力。
Vary-toy取得了令人瞩目的结果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%准确率,RefCOCO上的88.1%准确率,以及MMVet上的29%。
Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码,供研究社区进一步探索和采用。
Vary-toy可实现的场景案例展示:
项目入口:https://top.aibase.com/tool/vary-toy
论文:https://arxiv.org/abs/2401.12503
海底捞回应等位时可以打麻将:进行个性化创新
站长之家(ChinaZ.com)7月10日消息:7月9日,社交媒体上一则#海底捞等位可以打麻将了#的话题迅速攀升至微博热搜,引发了广大网友的热烈讨论与关注。针对这一热议话题,海底捞官方随即给出了温馨而富有创意的回应。他们表示,为了进一步提升顾客在门店等待就餐期间的体验,海底捞正积极探索并实践着更加多元化、个性化的等位娱乐服务。站长网2024-07-11 08:54:200000到底什么是生活方式电商
互联网的底层基因是标准化,其对电商进行规模化改造,优先解决的就是大众化、标准化需求,且这个需求占消费市场的大多数。阿里在迈过了早期淘宝专注于个性化的、非标的电商购物需求后,分化出天猫,进而吸引本身就有广泛人群吸引能力和提供大众化、标准化解决方案的大品牌;抖音电商通过直播和短视频,聚集大流量做大团购;拼多多通过社交裂变以及低价做大众需求汇集。0000GPT-4V新玩法登顶GitHub热榜,随手一画就能生成网页!web开发者:感受到了威胁
随手一画就能生成网页!GPT-4V新玩法登顶GitHub热榜,狂揽3000🌟:现在只要简单画一画,框一框,点击执行:“啪”地一下,一个带有各种“按钮”的网页就做好了:对应代码也一览无余:整个操作过程十分快捷简单。新玩法不只在GitHub上火,开发者SawyerHood把demo展示po到𝕏上,也迅速走红,点赞转发收藏2700:站长网2023-11-17 17:55:490000微软将向 人工智能初创公司Inflection 支付 6.5 亿美元许可费
据路透社报道,一位知情人士透露,微软已同意支付约6.5亿美元现金给人工智能初创公司Inflection。这一非同寻常的交易将使微软能够利用Inflection的模型,并雇佣该公司的大部分员工,包括联合创始人。站长网2024-03-23 00:22:320000谷歌超过四分之一的新代码由人工智能生成
谷歌正在开发一系列人工智能产品,并在开发过程中大量使用人工智能。首席执行官SundarPichai在公司2024年第三季度财报电话会议上表示,谷歌超过四分之一的新代码都是由人工智能生成的,然后由工程师审核和接受。这标志着人工智能对公司的重要性。0000