中国 AI 研究提出全新多模态学习框架Meta-Transformer
站长网2023-07-24 15:44:460阅
传统的深度学习模型在处理不同数据形式时存在巨大的模态差异,需要进行大量的工作来构建一个能够处理各种输入形式的统一网络。不同数据模态之间存在显著差异,通常使用不同的网络拓扑来独立编码每种数据模态。然而,这需要耗费时间和精力。
为了解决这个问题,中国香港中文大学和上海 AI 实验室的研究人员提出了一种全新的多模态学习框架,称为 Meta-Transformer。Meta-Transformer 使用相同的参数集同时对十二种不同的模态进行编码,实现了更加集成的多模态学习方法。

Meta-Transformer 的框架包括三个组件:数据到序列标记的模态专家、跨模态提取表示的模态共享编码器,以及用于下游任务的任务特定头部。通过这种简单而有效的方法,Meta-Transformer 可以高效地训练任务特定和模态通用的表示。
研究人员在多个标准数据集上进行了大量的研究,结果表明 Meta-Transformer 在处理多模态数据方面表现出色,仅使用来自 LAION-2B 数据集的图片进行预训练就能在各种多模态学习任务中超越现有技术。
总之,Meta-Transformer 是一个独特的多模态学习框架,通过使用相同的参数集同时提取多个模态的表示,开辟了统一多模态学习的新方向。这一研究为统一各种模态的框架的发展提供了新的可能性。
0000
评论列表
共(0)条相关推荐
特斯拉召回1104622辆汽车 将提供能量回收制动强度选项
国家市场监督管理总局发文称,日前,特斯拉汽车(北京)有限公司、特斯拉(上海)有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。站长网2023-05-12 15:08:140000卢伟冰:Redmi暂时不会出折叠屏手机
快科技8月3日消息,小米最近推出的两款折叠屏手机不仅将大折叠屏手机提升到了行业领先水平,同时也填补了小米在小折叠屏领域的空白。具体来说,小米MIX{tag_keyurl_4}4的折叠厚度仅为9.47mm,展开后更是薄至4.59mm,重量仅为226g,雷军甚至盛赞其手感堪比传统直屏旗舰手机,令人难以置信。站长网2024-08-03 18:15:470000英伟达市值一夜飙涨1.1万亿 总市值达2.3万亿美元
近日,当地时间3月13日,英伟达股价强势上涨,涨幅高达7.16%,收盘价定格在919.13美元。这一涨幅使得英伟达的单日市值激增约1535亿美元,折合人民币约为11023亿元,公司总市值更是达到了惊人的2.3万亿美元。站长网2024-03-13 09:29:300000研究发现人们更偏爱人类创作的艺术而非AI生成作品
本文概要:1.实验表明人们更喜欢人类创作的艺术。2.人们更倾向于欣赏对于具有强烈叙事性的由算法生成的图像。3.人们更欣赏他们认为付出了努力的艺术品。最近一项的研究旨在确定人们对由人类或人工智能(AI)创作的艺术的偏好。研究包括两个实验,发表在《认知研究:原则与应用》杂志上。站长网2023-08-15 15:30:580000支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。站长网2024-06-09 00:30:330000