多模态大模型MMICL霸榜 支持文本图像视频输入
要点:
1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。
2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。
3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。
最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。
MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。
项目地址:https://github.com/HaozheZhao/MIC
MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据,存储在jsonl文件中,形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本,将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入,相关图像输入以及语境示范输入。
MMICL最大的特色在于同时接受文本和图像的交错输入,就像微信聊天一样自然。它可以分析两张图像的关系,也可以从视频中提取时空信息。如果给它一些示例,MMICL还能进行“现学现卖”,对未知知识进行类比和推理。研究团队表示,MMICL成功缓解了视觉语言模型中的语言偏见问题,避免在大量文本输入时忽视视觉信息。
MMICL的核心功能包括:
1)理解并推理多幅图像之间的关系;
2)人工构建的语境训练数据,支持语境学习;
3)状态最先进的多模态建模能力。
目前,MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。该模型支持多种互动方式,开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务,都可以基于MMICL得到进一步提升。
总体来说,MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力,支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。
OpenAI 加强安全团队并赋予董事会对高风险人工智能的否决权
OpenAI正在扩展其内部安全流程,以抵御有害人工智能的威胁。公司新成立的「安全咨询小组」将位于技术团队之上,向领导层提出建议,董事会也被授予否决权——当然,他们是否会实际使用这一权力则是另一个问题。站长网2023-12-19 09:08:490001抖音AI小和尚、老者语录能赚钱吗?
最近在抖音上流传一种新的书单号玩法,那就是老者语录、小和尚语录。许多账号粉丝数都有一二十万,也卖出去了不少书籍。那么这样语录账号是怎么做的?未来还有没有变现的机会?今天村长来告诉你。01AI数字人语录不管是老者、小和尚还是情感导师等等,用一个统一的称呼叫AI数字人语录或者AI书单号。就是生成虚拟人物,然后找到网上热门的语录,合成一段语录视频。站长网2023-07-16 05:54:440003服装设计软件——AI智绘 支持一键改面料,5秒改款
AI智绘是一款面向服装行业的AI设计工具,提供AI改款、AI生款、图案生成等功能,助力设计师进行快速原创设计。体验地址:https://www.pop-fashion.com/aidraw核心功能:极速AI改款:基于巨量款式库,支持一键改面料、花型、细节,5秒内完成改款。线稿生款:文本转线稿再生成款式,实现设计全流程一站式操作。高效AI制款:一键批量生款,提供无限创意灵感。站长网2023-08-26 16:12:070000百度智能云发布ERNIE Speed、Lite、Tiny 3款轻量级大模型
百度智能云近期举办了盛大的千帆产品发布会,会上重点发布了三款轻量级大模型,它们分别是ERNIESpeed、ERNIELite以及ERNIETiny。相较于那些拥有千亿级别参数的大模型,这些轻量级大模型显著减少了参数量,因此更加便于客户针对特定应用场景进行模型精调。这样的设计不仅有助于客户更容易地实现预期的使用效果,同时也为客户节约了大量的成本开销。站长网2024-03-22 09:35:390000