Vary-toy:具有高级视觉词汇视觉语音模型 适用于标准GPU
划重点:
📌 挑战与潜力:大型视觉语言模型(LVLMs)在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,但在图像感知能力方面仍有潜力待发。
📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而,模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。
📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy,通过优化视觉词汇创建过程,旨在提高LVLMs的图像感知能力。
在过去的一年里,大型视觉语言模型(LVLMs)已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。然而,LVLMs在图像感知能力方面仍有显著的提升潜力。
对于推动模型开发和实施,提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。
流行的LVLMs在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,如图像字幕、视觉问答(VQA)、模因理解和场景OCR,主要得益于出色的视觉词汇网络,如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而,无论架构如何,模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。
为了解决这个问题,研究人员提出了一种简单而有效的方法,通过使用较小的自回归模型(如OPT-125M)训练新的视觉词汇网络,并将其与现有词汇合并,创建最终的LVLM。然而,该方法存在缺点,包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。
MEGVII Technology的研究人员推出了Vary-toy,这是一个更小版本,旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型,适用于标准GPU。
Vary-toy沿用了Vary相同的流程,但优化了视觉词汇创建过程。他们不将自然图像视为负样本,而是将目标检测任务纳入词汇网络,结合密集的文本数据(PDF)和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后,他们将其与CLIP合并,并集成到一个1.8B语言模型中。
在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能,展示了其作为更小但强大的LVLM的潜力。
Vary-toy取得了令人瞩目的结果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%准确率,RefCOCO上的88.1%准确率,以及MMVet上的29%。
Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码,供研究社区进一步探索和采用。
Vary-toy可实现的场景案例展示:
项目入口:https://top.aibase.com/tool/vary-toy
论文:https://arxiv.org/abs/2401.12503
中国电信将发布“星河”通用视觉大模型2.0
昨日,中国电信在数字中国建设峰会主论坛上表示,当前,云计算正在步入由人工智能驱动的新一轮发展浪潮。中国电信称,人工智能是引领新一轮科技革命和产业变革的战略性技术,近年来飞速发展的大模型算法正推动人工智能向更通用、更精准和更普惠的方向发展,可以说“没有AI就没有云的未来。”大模型的快速演进对算力、数据和算法提出了更高要求。站长网2023-05-12 20:31:3300042024 年 8 个顶级生成式人工智能工具类别
ChatGPT等生成式人工智能服务的流行激发了人们将这些新工具应用于实际企业应用程序的兴趣。如今,几乎每个企业应用程序都通过生成式人工智能功能得到增强。0000百度搜索发布违规低质页面问题说明 站长需注意低质采集、功能异常等问题
百度搜索发布违规低质页面问题说明称,鼓励网站站长生产优质的页面,包括快速打开的页面、内容与标题一致、丰富有深度且真实鲜活、具有一定权威性的内容。同时,百度搜索也会定期监控和清理违规低质的页面,如低质采集、色情、功能异常等。站长网2023-09-01 10:47:4300001句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下
CMU与清华的研究者联合发布了Prompt2Model框架,它可以根据用户提供的prompt,快速训练一个小型专业模型。仅需投入5美元用于数据收集和20分钟的训练时间,就能获得性能优于ChatGPT平均水平20%的小型模型,同时模型参数规模减小了700倍。站长网2023-09-02 09:12:500000QQ音乐电视端即将单独收费 知情人士回应:尚处灰度测试
QQ音乐电视端近日向用户发布通知,宣布将原先的豪华绿钻会员升级为电视端独立会员,并实行单独付费制度。原豪华绿钻会员在2024年7月1日之前仍可享受在电视端免费播放会员歌曲的权益。据澎湃新闻报道,QQ音乐人工客服表示确实有相关调整,但未透露具体原因。此外,知情人士表示,目前,该电视会员仍处于小规模测试阶段,未来会逐渐普及。站长网2024-01-17 17:46:280001