Vary-toy：具有高级视觉词汇视觉语音模型适用于标准GPU

站长网2024-01-31 11:41:340阅

划重点:

📌 挑战与潜力:大型视觉语言模型（LVLMs）在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色，但在图像感知能力方面仍有潜力待发。

📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而，模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。

📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy，通过优化视觉词汇创建过程，旨在提高LVLMs的图像感知能力。

在过去的一年里，大型视觉语言模型（LVLMs）已经成为人工智能研究的一个突出焦点。当以不同方式启动时，这些模型在各种下游任务中表现出色。然而，LVLMs在图像感知能力方面仍有显著的提升潜力。

对于推动模型开发和实施，提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。

流行的LVLMs在计算机视觉（CV）和自然语言处理(NLP)交叉任务中表现出色，如图像字幕、视觉问答(VQA)、模因理解和场景OCR，主要得益于出色的视觉词汇网络，如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而，无论架构如何，模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。

为了解决这个问题，研究人员提出了一种简单而有效的方法，通过使用较小的自回归模型（如OPT-125M）训练新的视觉词汇网络，并将其与现有词汇合并，创建最终的LVLM。然而，该方法存在缺点，包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。

MEGVII Technology的研究人员推出了Vary-toy，这是一个更小版本，旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型，适用于标准GPU。

Vary-toy沿用了Vary相同的流程，但优化了视觉词汇创建过程。他们不将自然图像视为负样本，而是将目标检测任务纳入词汇网络，结合密集的文本数据（PDF）和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后，他们将其与CLIP合并，并集成到一个1.8B语言模型中。

在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能，展示了其作为更小但强大的LVLM的潜力。

Vary-toy取得了令人瞩目的结果，包括DocVQA上的65.6% ANLS，ChartQA上的59.1%准确率，RefCOCO上的88.1%准确率，以及MMVet上的29%。

Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码，供研究社区进一步探索和采用。

Vary-toy可实现的场景案例展示:

项目入口:https://top.aibase.com/tool/vary-toy

论文:https://arxiv.org/abs/2401.12503

Varytoy具有高级视觉词汇视觉语音模型适用于标准GPU

0000

评论列表

共(0)条

相关推荐

站长资讯
AI美女带货月入7w+，数字人主播路子有点野！
2023年起，AI成为街头巷尾的热议话题，各类相关话题更是频频登上热搜。近期，台湾音乐人包小柏利用AI技术在数字世界“复活”去世的女儿，实现互动。两会期间，以总台央视主持人郭若天、孟湛东为原型“复刻”的两位AI主播“上岗”，在央视财经新媒体24小时为用户解答经济、产业、旅游等领域问题。图片来自网络另外，在各大电商平台，AI主播们早就纷纷“上岗”带货了。
站长网2024-03-20 10:17:29
0000
站长资讯
微软必应聊天将提供AI炒股功能：可预判股价未来走势
微软正积极探索生成式人工智能（AI）的各种可能性，未来之一的应用场景是为用户提供股票投资的信息参考，能够预测未来的价格走势。微软的广告和网络服务主管MikhailParakhin在最新的推文中表示，在未来几个月内，将邀请BingChat用户参与AI炒股功能的测试。据微软表示，他们分析股价模型，可以预测某只股票在特定时间内高于或低于某个价格的概率，以帮助投资者做出更明智的投资决策。
站长网2023-06-30 22:52:33
0000
站长资讯
Lightricks推出AI电影制作工具LTX Studio 可自动生成脚本和分镜头
要点:Lightricks推出AI制作影视工具LTXStudio，助力创作者实现故事可视化。LTXStudio是基于AI的网络工具，通过提示生成脚本和分镜头，用户可调整场景、风格和角色。Lightricks将AI应用于多个产品，致力于为专业人士提供创意工具。
站长网2024-02-29 11:42:42
0000
站长资讯
李彦宏：百度文心大模型3.5版推理速度提升17倍
今天上午，在世界互联网大会数字文明尼山对话中，百度创始人、董事长兼首席执行官李彦宏表示，大模型在数字世界中的重要性不容忽视。他指出，新的国际竞争战略的关键不在于一个国家有多少个大模型，而在于这些大模型上有多少原生的AI应用，以及这些应用在多大程度上提高了生产效率。如果我们能进入这个竞赛，中国将拥有更加强大的数字化产业，数字经济规模将会获得巨大增长。
站长网2023-06-27 16:03:57
0000
站长资讯
美国最高法院驳回计算机科学家对 AIGC 发明的诉讼请求
据路透社消息，美国最高法院周一拒绝审理计算机科学家StephenThaler对美国专利商标局拒绝为其人工智能系统创造的发明颁发专利的质疑。大法官驳回了Thaler对下级法院裁决的上诉，该裁决认为专利只能颁发给人类发明者，他的人工智能系统不能被认为是他所说的两项发明的合法创造者。
站长网2023-04-25 09:05:24
0000