字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
字节大模型,BuboGPT来了。
支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。
答哪指哪,什么讲了什么没讲,一目了然:
除了有“慧眼”,还有“聪耳”。人类都注意不到的细节BuboGPT能听到:
Audio-1-chime-bird-breeze,量子位,20秒
前方高能!
三模态联合理解,文字描述 图像定位 声音定位,一键搞定,准确判断声音来源:
Audio-7-dork-bark,量子位,6秒
别着急,还没完!
即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系,看图辨音讲故事也可以:
Audio-11-six-oclock,量子位,1分钟
这么一看,BuboGPT干点活,够“细”的。
研究人员表示:
MiniGPT-4,LLaVA和X-LLM等最近爆火的多模态大模型未对输入的特定部分进行基础性连接,只构建了粗粒度的映射。
而BuboGPT利用文本与其它模态之间丰富的信息且明确的对应关系,可以提供对视觉对象及给定模态的细粒度理解。
因此,当BuboGPT对图像进行描述时,能够指出图中对象的具体位置。
BuboGPT:首次将视觉连接引入LLM
除了上面作者分享在YouTube的示例,研究团队在论文中也展示了BuboGPT玩出的各种花样。
活久见青蛙弹琴!这样的图BuboGPT也能准确描述吗?
一起康康回答得怎么样:
不仅能够准确描述青蛙的姿势,还知道手摸的是班卓琴?
问它图片都有哪些有趣的地方,它也能把图片背景里的东西都概括上。
BuboGPT“眼力 听力 表达力测试”,研究人员是这样玩的,大家伙儿先来听这段音频。
Audio-9-hair-dryer,量子位,5秒
再来看看BuboGPT的描述怎么样:
图片上的人的性别、声音来源、图片中发生的事情,BuboGPT都能准确理解。
效果这么好,是因为字节这次用了将视觉定位引入LLM的方法。
具体方法我们接着往下看。
BuboGPT的架构是通过学习一个共享的语义空间,并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现多模态理解。
为探索不同视觉对象和多种模态之间的细粒度关系,研究人员首先基于SAM构建了一个现成的视觉定位pipeline。
这个pipeline由标记模块(Tagging Module)、定位模块(Grounding Module)和实体匹配模块(Entity-matching Module)三个模块组成。
流程大概是这样婶儿的:
首先,标记模块是一个预训练模型,可以生成与输入图像相关的多个文本标签。
基于SAM的定位模块进一步定位图像上与每个文本标签相关的语义掩模或边界框。
然后,实体匹配模块利用LLM的推理能力从标签和图像描述中检索匹配的实体。
研究人员就是通过这种方式,使用语言作为桥梁将视觉对象与其它模态连接起来。
为了让三种模态任意组合输入都能有不错的效果,研究人员采用了类似于Mini-GTP4的两阶段走训练方案:
单模态预训练和多模态指令调整。
具体而言,BuboGPT使用了ImageBind作为音频编码器,BLIP-2作为视觉编码器,以及Vicuna作为预训练LLM。
在单模态预训练阶段,在大量的模态-文本配对数据上训练相应的模态Q-Former和线性投影层。
对于视觉感知,研究人员仅对图像标题生成部分进行投影层的训练,并且保持来自BLIP2的Q-Former固定。
对于音频理解,他们同时训练了Q-Former和音频标题生成部分。
在这两种设置下都不使用任何提示(prompt),模型仅接收相应的图像或音频作为输入,并预测相应的标题(caption)。
△不同输入的指令遵循示例
在多模态指令调整阶段,构建了一个高质量的多模态指令数据集对线性投影层进行微调,包括:
图像-文本:使用MiniGPT-4和LLaVa中的两个数据集进行视觉指令调优。
音频-文本:基于Clotho数据集构建了一系列表达性和描述性数据。
音频-图像-文本:基于VGGSS数据集构建了<音频,图像,文本>三模态指导调优数据对,并进一步引入负样本来增强模型。
值得注意的是,通过引入负样本“图像-音频对”进行语义匹配,BuboGPT可以更好地对齐,多模态联合理解能力更强。
目前BuboGPT代码、数据集已开源,demo也已发布啦,我们赶紧上手体验了一把。
demo浅玩体验
BuboGPT demo页面功能区一目了然,操作起来也非常简单,右侧可以上传图片或者音频,左侧是BuboGPT的回答窗口以及用户提问窗口:
上传好照片后,直接点击下方第一个按钮来上传拆分图片:
就拿一张长城照片来说,BuboGPT拆成了这个样子,识别出了山、旅游胜地以及城墙:
当我们让它描述一下这幅图时,它的回答也比较具体,基本准确:
可以看到拆分框上的内容也有了变化,与回答的文本内容相对应。
再来一张图片,并带有一段音频,BuboGPT也正确匹配了声音来源:
Audio-8-bicycle_bell,量子位,22秒
当然,它也会出现识别不成功,表述错误的情况,比如说下面这张图中并没有人,音频也只是钟声,但它的描述和图片似乎并不搭边。
感兴趣的家人赶紧亲自上手试试~~
传送门:
[1]https://bubo-gpt.github.io/
[2]https://huggingface.co/spaces/magicr/BuboGPT(demo)
—完—
第一批AIGC独角兽开始裁员了
AIGC创业投融资火爆推进,一则裁员公告却从天而降引爆关注:公告来自首批AIGC明星独角兽Jasper。早在ChatGPT爆火之前,AIGC也还不是大家耳熟能详的概念时,这家公司就已经背靠GPT-3,在18个月从白手起家到估值15亿美元。公告中称:他们裁掉的都是业内最早构建、营销和支持人工智能产品的人。在繁荣形势的当下,最早入局者的裁员决定无疑让大家错愕惊叹。站长网2023-07-24 15:03:340002AI在线LOGO设计工具Looka-AI 提供多种标识文件格式
Looka是一款基于人工智能的标识设计与品牌打造平台。它使用AI技术为用户自动生成数百种标识和品牌设计方案,让任何毫无设计经验的人都可以设计出专业的品牌视觉形象。用户只需输入公司名称,Looka就会基于关键词自动生成大量标识设计选项。用户可以选择喜欢的选项进行修改,修改颜色、图形、字体大小等设计要素,使用Looka简易的编辑工具调整标识直到满意为止。站长网2023-09-04 12:11:250001研究发现AI在乳腺癌筛查中效果相当于两名放射科医生
据世界卫生组织称,乳腺癌是全球最常见的癌症,每年有超过230万名女性患上这种疾病。筛查可以在更早、更容易治疗的阶段发现乳腺癌,从而改善预后并降低死亡率。一项大型研究的初步结果表明,人工智能筛查与两名放射科医生一起工作的效果一样好,不会增加误报,而且工作量几乎减半。站长网2023-08-02 14:51:250000Dingo:一个可简单集成函数的ChatGPT微框架
要点:Dingo是一个可以简单集成Python函数到ChatGPT的微框架,只需要一行代码。Dingo可以自动生成函数的文档注释,简化集成过程。Dingo可以打包部署成兼容OpenAIAPI的Web服务器。最近的大语言模型进步推动了AI助手的出现。简单来说,AI助手是一种机制,它为大语言模型提供一组外部工具(函数)。这些工具可以在用户输入的基础上被模型调用(单次或多次)。站长网2023-08-28 09:59:180000EmojiGen:一个开源表情符号生成器网站
EmojiGen是一个开源的表情符号生成器。它使用了先进的AI技术,可以根据用户的文字描述快速生成有趣的表情符号图片。用户只需要在输入框中输入一个词或短语,EmojiGen就会立即生成相关的表情符号。用户可以输入简单的词语如“猫”或者“击掌”,它就可以生成适当的表情符号图片。生成的图片可以下载保存,并可以上传到Slack等即时通讯软件中使用。站长网2023-10-09 16:56:210000