「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文
多模态大模型,终于迎来“大一统”时刻!
从声音、文字、图像到视频,所有模态被彻底打通,如同人脑一般,实现了真正意义上的任意输入,任意输出。
要知道,多模态一直是学术界公认要达到更强智能的必经之路,连GPT-4都在往这个方向发展。
也正是因此,这项来自微软、北卡罗来纳大学教堂山分校的新研究一经po出,立即在社交媒体上爆火,有网友惊叹:
这是我最近见过最不可思议的一篇论文!
究竟有多不可思议?
只需告诉大模型,想要“一只玩滑板的泰迪熊”,并输入一张照片 一段声音:
输入的雨声音频,它立刻就能精准get要点,生成一段在下雨天在城市里玩滑板的心碎小熊录像,仔细听还会发现配上了新的雨声:
效果太过于鹅妹子嘤,以至于不少网友表示“有被吓到”:
还有网友感叹“新时代的到来”:
等不及看到创作者们用这些AI工具制作各种沉浸式故事体验了。这简直给RPG角色扮演游戏赋予了全新的意义。
值得一提的是,一作Zineng Tang虽然本科还没毕业,但他已经在CVPR、发了6篇顶会论文,其中5篇都是一作。
所以,这个号称能够“转一切”(any-to-any)的大一统大模型,实现效果究竟如何?
4种模态随意选,打出“组合拳”
大模型CoDi,具有任意输入和输出图、文、声音、视频4种模态的能力。
无论是单模态生成单模态(下图黄)、多模态生成单模态(下图红)、还是多模态生成多模态(下图紫),只要指定输入和输出的模态,CoDi就能理解并生成想要的效果:
先来看单模态生成单模态。
输入任意一种模态,CoDi都能联想并输出指定的模态,例如,输入一张风景图像,就能输出“山景,日出”这样的文字提示词:
或是输入一段铁轨碰撞声,就能生成一张地铁图像:
面对多模态生成单模态时,CoDi威力同样不减。
输入一张“熊猫吃竹子”图像,加上一段“在咖啡桌上吃”的文字要求:
CoDi就能生成一段大熊猫坐在咖啡桌旁吃竹子的视频:
或是输入一组文字提示词“油画,恐怖画风,优雅复杂的概念艺术,克雷格·穆林斯(CG绘画之父)风格”,加上一段拍打木板的水声:
拍打木头的水声音频:
CoDi在经过联想后,就能输出一张精致的、气势恢宏的黄昏时分海盗船画像:
最后来看看多模态生成多模态的效果。
给CoDi提供一段钢琴声,加上一张森林中的照片:
输入钢琴声音频:
CoDi就能想象出一段“在森林中弹钢琴”的文字,并配上对应的插图:
要知道在这之前,AI生成的视频不少都没有配音,停留在老式的“无声电影”阶段。
然而CoDi不仅能生成视频,还能生成搭配视频食用的声音。
例如根据一个“天空中的花火”文字提示词 一段对应的音频,就能生成一个带有爆炸声音的烟花录像:
所以,CoDi究竟是如何做到理解不同的模态,并“打出组合拳”的?
用“对齐”来节省大模型训练数据
事实上,CoDi的打造面临两个难点。
首先是缺少训练数据的问题,以作者们能收集到的数据集为例:
无论是像Laion400M这样的文图数据集、还是像AudioSet之类的音频文字数据集,或是油管上的图像音视频数据集,以及Webvid10M之类的视频数据集,都属于“单模态生成单个或两个模态”的类型。
然而,多模态大模型的训练数据需求,随着模态数量的增加呈指数级增长,许多输入输出组合,往往缺少对应的训练数据集。
其次,已有的扩散模型大多是1v1的类型,如何设计并训练模型,确保多模态输入输出的效果,同样是个问题。
针对这两个问题,作者们决定分两个阶段打造CoDi,让它不仅能实现单模态“完美输出”、还能做到多模态“1 1>2”。
在阶段一,组合条件训练,给每个模态都打造一个潜在扩散模型(LDM),进行组合训练。
针对A模态生成B模态数据集缺失的问题,作者们提出了一种名为桥接对齐(Bridging Alignment)的策略。
具体来说,就是以带文本模态的数据集为“中介”,对齐另外几种模态的训练效果。
以音频生成图像为例。
虽然音频生成图像数据集不多,但文本生成音频、文本生成图像的数据集却有不少,因此可以将这两类数据集合并起来,用于训练文本 音频生成图像的效果。
在此期间,文本和音频输入经过模型处理,会被“放置”进一个共享特征空间,并用输出LDM来处理输入输入的组合特征,输出对应的图像结果。
阶段二,进一步增加生成的模态数量。
在阶段一的基础上,给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块,就能将潜在扩散模型的潜变量投射到共享空间中,使得生成的模态也进一步多样化。
最终训练出来的模型,虽然训练数据类型不是“全能的”,但也具备了多模态输入、多模态输出的能力。
值得一提的是,可别以为这种方法会降低模型生成的质量。
事实上,在多种评估方法上,CoDi均超越了现有多模态大模型的生成效果。
华人本科生,5篇顶会论文一作
一作Zineng Tang,本科就读于北卡罗来纳大学教堂山分校,也是微软研究院的实习生,今年6月将进入加州大学伯克利分校读博。
他的研究兴趣在于多模态学习、机器学习和NLP领域,而从大一开始,他就在NeurIPS、CVPR、ACL和NAACL等顶会上相继发了6篇文章,其中5篇一作。
就在今年1月,Zineng Tang还获得了2023年的美国计算机研究学会(CRA)设立的优秀本科生研究员奖。
每年全美国能获得这个奖项的本科生,只有4人。
这一奖项旨在表彰在计算机研究领域有杰出研究潜力的本科生,包括MIT、斯坦福、哈佛和耶鲁大学等不少北美名校在内,每年都会提名一些优秀学生,经过层层筛选后决定获奖者。
通讯作者Ziyi Yang,目前是微软Azure认知服务研究团队(CSR)的高级研究员,研究方向是多模态理解和生成,文档智能和NLP等。
在加入微软之前,他本科毕业于南京大学物理系,并于斯坦福大学获得电气工程硕士和机械工程博士学位。
通讯作者Mohit Bansal,是北卡罗来纳大学教堂山分校计算机系教授。他于加州大学伯克利分校获得博士学位,目前研究方向是NLP和多模态机器学习,尤其侧重语言生成问答和对话、以及可解释深度学习等。
你感觉多模态大模型发展的下一阶段,会是什么样子?
论文地址:
https://arxiv.org/abs/2305.11846
项目地址:
https://github.com/microsoft/i-Code/tree/main/i-Code-V3
开源AI拯救Meta一夜飙升1960亿刀,39岁小扎爬出元宇宙深坑!年分红7个亿,靠Llama赢麻了
【新智元导读】把小扎从元宇宙大坑中拯救出来的,居然是开源AI!市值大涨的Meta,现在能让小扎一年分红7亿美元。股价图一出,LeCun都评论:有意思。谁能想到,把小扎从元宇宙的泥坑里拯救出来的,竟然是开源AI?在Facebook20周年之际,Meta在2月4日公布了季度报告后,市值瞬间飙涨1900亿美元。同时,这张图片也开始在网上疯传。站长网2024-02-04 16:41:520000荣耀Magic6全系搭载巨犀玻璃 突破玻璃材质极限
站长之家(ChinaZ.com)1月8日消息:荣耀手机近日宣布,其即将发布的Magic6系列将全系搭载全新荣耀巨犀玻璃。这一突破性的玻璃材质被官方宣称为“突破玻璃材质极限,防冲击、抗跌落能力再次提升。”为了展示其优越性能,荣耀还发布了一段视频,其中包含了Magic6系列手机与友商其他旗舰产品的屏幕对撞实验。0000OpenAI、微软押注,大模型应用的尽头是AI Agent ?|对话面壁智能
你见过Agent们“吵架”么?“这个产品需要具备XX需求,为什么没有?”,“你提出的需求完全不合理,技术上达不到!”,现场顿时乱作一团,越来越多的“员工”也被卷进了这场大乱斗中。激烈的争吵声越过了屏幕外,面壁智能的测试人员通过后台日志,发现Agents正在上演一场“职场大戏”。站长网2023-11-16 14:04:060002苹果龙年手机壳被吐槽指蟒为龙 网友:四爪为蟒
站长之家(ChinaZ.com)1月23日消息:苹果中国官网近日上架了专为新春设计的OtterBoxLumen龙年款手机壳,售价498元,涵盖iPhone15全系机型。这款手机壳由知名插画师YulongLli精心绘制,用绚烂的牡丹烟火图案、卷曲流动的线条和明亮的色彩,生动展现龙的勇猛精神,寓意喜庆吉祥。站长网2024-01-23 09:07:420000首场直播就赚了130万引热议 李斌本人回应:实际收入3.3万元
快科技3月22日消息,近期,蔚来李斌首次直播收入130万元的消息,引起网友热议。对此,李斌日前在其个人社交平台发布视频回应称,由于自己是第一次直播,对业务并不熟悉,所以开通了打赏功能。随后,李斌晒出直播收入明细,并笑称自己也想多点收入,但当晚的实际收入为33088元,并没有网传的那么夸张。李斌决定将这个钱全部捐给大学生方程式这个赛事,后续将继续接受打赏,所获收入也全部捐出。站长网2024-03-23 17:12:020000