超火迷你GPT-4视觉能力暴涨,GitHub两万星,华人团队出品
GPT-4V来做目标检测?网友实测:还没有准备好。

虽然检测到的类别没问题,但大多数边界框都错放了。
没关系,有人会出手!
那个抢跑GPT-4看图能力几个月的迷你GPT-4升级啦——MiniGPT-v2。
△(左边为GPT-4V生成,右边为MiniGPT-v2生成)
而且只是一句简单指令:[grounding] describe this image in detail就实现的结果。
不仅如此,还轻松处理各类视觉任务。
圈出一个物体,提示词前面加个 [identify] 可让模型直接识别出来物体的名字。

当然也可以什么都不加,直接问~

MiniGPT-v2由来自MiniGPT-4的原班人马(KAUST沙特阿卜杜拉国王科技大学)以及Meta的五位研究员共同开发。

上次MiniGPT-4刚出来就引发巨大关注,一时间服务器被挤爆,如今GItHub项目已超22000 星。

此番升级,已经有网友开始用上了~

多视觉任务的通用界面
大模型作为各文本应用的通用界面,大家已经司空见惯了。受此灵感,研究团队想要建立一个可用于多种视觉任务的统一界面,比如图像描述、视觉问题解答等。

「如何在单一模型的条件下,使用简单多模态指令来高效完成各类任务?」成为团队需要解决的难题。
简单来说,MiniGPT-v2由三个部分组成:视觉主干、线性层和大型语言模型。

该模型以ViT视觉主干为基础,所有训练阶段都保持不变。从ViT中归纳出四个相邻的视觉输出标记,并通过线性层将它们投影到 LLaMA-2语言模型空间中。
团队建议在训练模型为不同任务使用独特的标识符,这样一来大模型就能轻松分辨出每个任务指令,还能提高每个任务的学习效率。
训练主要分为三个阶段:预训练——多任务训练——多模式指令调整。

最终,MiniGPT-v2在许多视觉问题解答和视觉接地基准测试中,成绩都优于其他视觉语言通用模型。

最终这个模型可以完成多种视觉任务,比如目标对象描述、视觉定位、图像说明、视觉问题解答以及从给定的输入文本中直接解析图片对象。

感兴趣的朋友,可戳下方Demo链接体验:
https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2
论文链接:https://arxiv.org/abs/2310.09478
GitHub链接:https://github.com/Vision-CAIR/MiniGPT-4
参考链接:https://twitter.com/leoyerrrr
—完—
淘宝内容化直播继续提速,机构如何抓住新的发展机遇?
过去一年,直播行业的竞争愈发激烈。如何在激烈的直播赛道中突出重围?选对赛场很关键。2023年2月,淘宝直播提出内容化直播,并发布优质内容激励政策,吸引了大量机构和主播加入。不过,在淘宝上究竟如何做好直播内容?突破口在哪里?有哪些创新的玩法?近日,新播场对话中企互娱、三人行传媒和盛世文化等三家淘宝内容直播机构,听他们讲述背后的方法论。连续4个月登榜S级机构站长网2024-01-18 09:17:500000QQ音乐2024版本发布 新增我的唱片架、城市律动播放器等功能
QQ音乐发布了2024全新版本,这是QQ音乐18周年焕新特别版。新版本的界面、图标等视觉元素简约不失高级的设计,符合年轻人的极简美学追求。在功能特性上,新版本推出了一系列个性化的互动功能,如“我的唱片架”、“城市律动播放器”、“2024纪念版播放器”和“音色魔法师”,满足年轻音乐爱好者的多样化需求。站长网2023-12-22 16:00:37000051岁的退休阿姨,在四线城市逐梦互联网
“他打了一个急方向,车就窜上树了。我在天上飞的时候,心里说完了完了,要去死了,不能死啊我还有好多事没做,闭着眼念了十声阿弥陀佛,车落在地上,我眼睛一睁,嘿,还活着。”大雨中的高速路旁,雪姨站在被撞烂的轿车前——这是她曾经努力销售的回报之一,后备箱里的保险单、宣传单在雨里飞,送客户的油洒了一地。眼前饭桌上没人夹菜,全被她的话抓住了视线:“那一刻我突然不想干保险了,哪怕去要饭都不再干了!”站长网2023-07-12 18:01:150000针对PS的AI插件“Alpaca” 可将草图转为艺术作品
Alpaca是一款专为艺术家设计的个性化AI工具包,旨在帮助用户更深入地探索、更快速地迭代,并发挥创意潜能。它是一个针对AdobePhotoshop的插件,将人工智能图像生成能力与人类技能相结合。体验地址:https://www.alpacaml.com/核心功能:从草图中生成图像:将自己的草图转化为栩栩如生的艺术作品。控制图像生成:从草图和参考图像开始,指导艺术作品的构图。站长网2023-08-14 15:47:330000第一波收割完的 AI 创企要跑路了?6 年来仅做了一款产品,问世 30 天就彻底失败,Ai Pin 公司 10 亿美元求“卖身”
当地时间5月22日,据外媒报道,总部位于美国加州旧金山的可穿戴设备初创公司Humane正考虑接受收购。彭博社援引消息人士称,该公司的定价在7.5亿至10亿美元之间,出售过程正处于早期阶段。1成立5年未公开过任何产品,拿着PPT融了10多亿元?站长网2024-05-24 10:42:500000