EPFL与苹果研究人员开源4M:跨多种模态和任务训练多模态基础模型的人工智能框架
**划重点:**
- 🌐 **多模态挑战:** 自然语言处理中训练大型语言模型(LLMs)变得流行,但在视觉领域仍需灵活可扩展的模型。
- 🤖 **4M框架:** EPFL和苹果团队提出"Massively Multimodal Masked Modeling"(4M)框架,整合Transformer技术,具备强大的跨模态能力。
- 🚀 **可扩展性与效率:**4M通过模态特定的标记器实现对各种输入模态的训练,提高兼容性、可扩展性,并通过输入和目标掩码实现高效训练。
近日,瑞士洛桑联邦理工学院(EPFL)与苹果联手推出了一项名为"Massively Multimodal Masked Modeling"(4M)的人工智能框架,旨在解决训练跨多模态视觉基础模型的挑战。尽管在自然语言处理领域,训练大型语言模型(LLMs)已经取得了显著成功,但在视觉领域,仍需要构建能够灵活处理多种输入模态和输出任务的模型。
4M框架采用了一种独特的策略,通过训练单一的Transformer编码器-解码器,具备多模态的掩码建模目标。"Massively Multimodal Masked Modeling"强调了该方法在扩展到多种各异模态方面的能力。这一方法融合了掩码建模和多模态学习的最佳特性,包括强大的跨模态预测编码能力、共享场景表示以及通过迭代抽样实现生成任务的能力。
不仅如此,4M在保持高效性的同时,通过模态特定的标记器将各种格式的输入模态转换为离散标记的集合或序列,使得单一的Transformer可以同时处理文本、边界框、图片或神经网络特征等多种输入模态,实现它们的统一表示领域。
此外,4M采用了输入和目标掩码的方式,即从所有模态随机选择一小部分标记作为模型输入,另一小部分作为目标。通过将输入和目标标记的数量与模态数量解耦,防止了随着模态数量增加而导致的计算成本快速上升。通过利用CC12M和其他可用的单模态或文本-图片对数据集,使用强大的伪标签网络创建模态对齐的绑定数据,4M在不需要多模态/多任务注释的情况下,可以在不同且大规模的数据集上进行训练。
研究人员发现,4M模型不仅在多个重要的视觉任务上表现出色,而且可以进行精细调整以在未来的任务和输入模态上取得显著成果。为了训练可导向的生成模型,可以根据任何模态进行条件化,必须使用多模态的掩码建模目标。通过对4M性能影响的深入消融分析,结合该方法的简便性和通用性,研究人员认为4M在许多视觉任务和未来发展中具有巨大的潜力。
项目体验网址:https://4m.epfl.ch/
论文网址:https://arxiv.org/abs/2312.06647
99%好评率!华为Mate 60 Pro官网评价破万 首批用户:中国“争气机”
快科技9月3日消息,华为新一代Mate旗舰华为Mate60Pro于8月29日在华为商城突然开售,首批发售的机型为先锋计划”,官方称让部分消费者提前体验史上最强Mate手机。站长网2023-09-03 08:48:080002亚马逊推出新款 Echo 设备 承诺将类 ChatGPT 生成式 AI 引入其 Alexa 语音助手
亚马逊推出了新款的Echo设备,并承诺将ChatGPT式的人工智能引入搭载Alexa的设备。亚马逊的设备与服务高级副总裁DaveLimp在接受采访时表示,一年多来,这款数字助手一直在使用自主构建的一套大型语言模型,这些模型是支持ChatGPT和竞争对手技术的基础设施,用于帮助总结从网络中收集的文本,并使Alexa能够以多种语言进行更流畅的对话。站长网2023-05-18 10:57:380001反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用
本文概要:1.反盗版组织成功要求在线盗版书籍资源库TheEye下线AI训练数据集"Books3"。2."Books3"数据集包含了37GB的文本,用于训练人工智能模型,已被多家公司使用。3.反盗版组织表示AI对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。站长网2023-08-22 12:01:020000科大讯飞与中国石化安徽石油分公司合作 探索行业大模型应用
11月22日,科大讯飞股份有限公司与中国石化销售股份有限公司安徽石油分公司在合肥签订战略合作协议。双方商定,将不断深化合作关系,共同探索构建行业大模型应用、加强信息化建设领域合作,为能源发展与高新技术的有机融合提供合适的土壤。站长网2023-11-23 08:24:110000打开男人的钱包,这款App上线第3个月收入超200万
不过最近,编辑部发现一个“含男量”很高的App,成绩意外地还不错。连续两个月下载量逼近百万,变美App盯上男性用户?Umax-BecomeHot是一款颜值打分器App。用户上传脸部照片,系统通过分析给用户颜值打分,然后针对性指出需要改进的地方并督促用户改进,最终让用户实现颜值飞升。站长网2024-03-06 11:13:230000