多模态大模型MMICL霸榜 支持文本图像视频输入
要点:
1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。
2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。
3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。
最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。
MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。
项目地址:https://github.com/HaozheZhao/MIC
MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据,存储在jsonl文件中,形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本,将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入,相关图像输入以及语境示范输入。
MMICL最大的特色在于同时接受文本和图像的交错输入,就像微信聊天一样自然。它可以分析两张图像的关系,也可以从视频中提取时空信息。如果给它一些示例,MMICL还能进行“现学现卖”,对未知知识进行类比和推理。研究团队表示,MMICL成功缓解了视觉语言模型中的语言偏见问题,避免在大量文本输入时忽视视觉信息。
MMICL的核心功能包括:
1)理解并推理多幅图像之间的关系;
2)人工构建的语境训练数据,支持语境学习;
3)状态最先进的多模态建模能力。
目前,MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。该模型支持多种互动方式,开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务,都可以基于MMICL得到进一步提升。
总体来说,MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力,支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。
ChatGPT 落入大学生之手,6 个月后实现月收入 45 万元,代价:挂科两门!
ChatGPT浪潮来袭,大厂们正在紧锣密鼓地研发大模型,创业公司在垂直生态之下发力内容制作、工具等应用,不少一线开发者、爱好者则利用AI在提升工作效率之余也做起了兼职与副业生意。对此,也有一个名为MillionDollarAI的网站做了一个聚合页分享了这些基于已有AI模型而拓展研发的一些产品,其中有些现如今收益颇丰,令人生羡。站长网2023-05-25 18:15:490000Luma 1.5正式发布,视频质量、文本语义还原大幅度提升
昨天,Luma刚宣布即将发布1.5版本,没想到今天就正式上线了,这速度真可以啊。根据「AIGC开放社区」实际使用体验来看,与1.0相比,1.5最大提升就是生成视频的质量,尤其是清晰度、光影、饱和度、构图、运镜等方面,基本可以媲美OpenAI的Sora。文本语义还原则是另外一个亮点,过去即便用很精准的提示词还是会出现“驴唇不对马嘴”的情况。刚才试了几个视频基本都能根据提示词生成完整的视频。站长网2024-08-20 09:00:200000英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手
【新智元导读】给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。继斯坦福的25人小镇后,AI智能体又出爆款新作了。最近,英伟达首席科学家JimFan等人把GPT-4整进了「我的世界」(Minecraft)——提出了一个全新的AI智能体Voyager。站长网2023-05-28 09:42:100000马斯克前女友:AI 生成音乐是开源艺术 愿意平分版税
音乐产业正在思考生成式AI对其可能造成的潜伏破坏,而歌手ClaireBoucher(艺名Grimes,马斯克前女友)似乎愿意接受该技术所可能带来的一切潜在干扰。这位加拿大制作人和歌手因她于十年前推出的音乐风格独树一帜的专辑《Visions》而备受好评。周日晚她在Twitter上指出,她愿意与任何成功利用了她的声音的AI生成的歌曲平分版税。站长网2023-04-25 10:15:480000淘宝重启网页版 称将深入探索AI电商场景
淘宝官方今日郑重宣告,其网页版迎来了七年来的首次重大升级,此举标志着电脑用户将能够更便捷地享受淘宝购物的乐趣。站长网2024-05-07 17:41:190000