EPFL与苹果研究人员开源4M:跨多种模态和任务训练多模态基础模型的人工智能框架
**划重点:**
- 🌐 **多模态挑战:** 自然语言处理中训练大型语言模型(LLMs)变得流行,但在视觉领域仍需灵活可扩展的模型。
- 🤖 **4M框架:** EPFL和苹果团队提出"Massively Multimodal Masked Modeling"(4M)框架,整合Transformer技术,具备强大的跨模态能力。
- 🚀 **可扩展性与效率:**4M通过模态特定的标记器实现对各种输入模态的训练,提高兼容性、可扩展性,并通过输入和目标掩码实现高效训练。
近日,瑞士洛桑联邦理工学院(EPFL)与苹果联手推出了一项名为"Massively Multimodal Masked Modeling"(4M)的人工智能框架,旨在解决训练跨多模态视觉基础模型的挑战。尽管在自然语言处理领域,训练大型语言模型(LLMs)已经取得了显著成功,但在视觉领域,仍需要构建能够灵活处理多种输入模态和输出任务的模型。
4M框架采用了一种独特的策略,通过训练单一的Transformer编码器-解码器,具备多模态的掩码建模目标。"Massively Multimodal Masked Modeling"强调了该方法在扩展到多种各异模态方面的能力。这一方法融合了掩码建模和多模态学习的最佳特性,包括强大的跨模态预测编码能力、共享场景表示以及通过迭代抽样实现生成任务的能力。
不仅如此,4M在保持高效性的同时,通过模态特定的标记器将各种格式的输入模态转换为离散标记的集合或序列,使得单一的Transformer可以同时处理文本、边界框、图片或神经网络特征等多种输入模态,实现它们的统一表示领域。
此外,4M采用了输入和目标掩码的方式,即从所有模态随机选择一小部分标记作为模型输入,另一小部分作为目标。通过将输入和目标标记的数量与模态数量解耦,防止了随着模态数量增加而导致的计算成本快速上升。通过利用CC12M和其他可用的单模态或文本-图片对数据集,使用强大的伪标签网络创建模态对齐的绑定数据,4M在不需要多模态/多任务注释的情况下,可以在不同且大规模的数据集上进行训练。
研究人员发现,4M模型不仅在多个重要的视觉任务上表现出色,而且可以进行精细调整以在未来的任务和输入模态上取得显著成果。为了训练可导向的生成模型,可以根据任何模态进行条件化,必须使用多模态的掩码建模目标。通过对4M性能影响的深入消融分析,结合该方法的简便性和通用性,研究人员认为4M在许多视觉任务和未来发展中具有巨大的潜力。
项目体验网址:https://4m.epfl.ch/
论文网址:https://arxiv.org/abs/2312.06647
生成式 AI 如何重塑搜索引擎并对 680 亿美元 SEO 行业构成威胁
站长网2023-10-30 10:59:170001剪辑软件未经消费者同意变更为收费 法院:退还会员费
据广州互联网法院消息,近日,广州互联网法院审理了一起因使用剪辑软件在导出视频时收费而引发的网络服务合同纠纷案件。站长网2023-05-18 09:40:380000NVIDIA将发近年最重要科技财报!市场期待能否戳破AI泡沫论
快科技8月25日消息,美东时间8月28日,半导体巨头NVIDIA将公布其2025财年第二财季业绩,市场普遍预期这将是近年来科技界最重要的一份财报。虽然多位分析师都给出了乐观预期,但不可否认的是,投资AI是场回报率难达预期的泡沫”疑虑仍难消解。如果NVIDIA的最新财报表现无法再次超出预期并上调盈利预测,可能会让投资者失望,进而对整个市场产生更广泛的影响。0000AI输出是否受到言论保护?法律专家警告称这是危险的提议
**划重点:**1.🗣️一些美国法律专家认为大型语言模型(LLM)的输出受到第一修正案的保护,但法律专家PeterSalib表示这将带来灾难性后果。2.🤯Salib担心,如果GPT-5等模型的输出被视为受到保护的言论,将难以监管这些系统,可能导致严重后果。3.🚫他提倡对AI输出进行合理监管,强调法规应该关注输出内容本身,而不是过程,以规避潜在的危险。站长网2024-03-06 15:37:540000OpenAI领投1X公司 又融资1亿美元 刷新人形机器人领域融资纪录
2024年,科技界的风向标之一无疑是完善人形机器人的赛道。去年,特斯拉、Apptronik和Figure等科技巨头的加入,使这一领域日益火热。其中,Agility与亚马逊合作,推进仓库试点项目,更是将竞争推向了高潮。站长网2024-01-12 10:31:170000