比OpenAI更快一步,最新开源的MiniGPT-4模型可让开发者提前感受GPT-4识图能力!
迄今为止,GPT-4凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI在推出 GPT-4时虽然引入了对图像理解的能力,但并没有在除了 Be myEyes(针对盲人或弱视人士的应用程序和服务)应用程序之外的任何地方提供此功能。
GPT-4对图像理解能力的示例详见:
用户:这幅画有什么好笑的地方?逐一描述它的板块。
图片来源:https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/
GPT-4:图片显示的是一个 "Lightning Cable "适配器的包装,有三个板块:
板块1:一部智能手机,VGA 连接器(通常用于电脑显示器的大型蓝色15针连接器)插在其充电端口。
板块2:"Lightning Cable "适配器的包装上有一张 VGA 接口的图片。
板块3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。
这张图片的幽默感来自于将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。
近日,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队推出了一款名为 MiniGPT-4的新模型,以开源的形式提供了此功能。
研究人员还透露,MiniGPT-4具有许多类似于 GPT-4所展示的功能,下文我们也将分享相关的实例。
可执行复杂的视觉语言任务的 MiniGPT-4
该团队发现尽管 GPT-4表现出非凡的能力,但是其特殊能力背后的方法并不为众人所熟知。因此,他们提出「GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)」这一想法。
为了验证这一想法,他们便提出了 MiniGPT-4模型。
根据研究团队发布的论文显示,为了构建 MiniGPT-4,研究人员使用了基于 LLaMA 构建的 Vicuna 作为语言解码器,并使用 BLIP-2视觉语言模型作为视觉解码器。
其中,Vicuna 和 BLIP-2都是开源的。这意味使用开源软件可以用较少钱进行训练和微调,并且没有海量数据和开销,这也是为什么这个模型加上了“mini”的前缀。
在实验中,该团队发现只对原始图像-文本对进行预训练会产生不自然的语言输出,包括重复和零散的句子,缺乏连贯性。为了解决这个问题,其在第二阶段策划了一个高质量、一致性好的数据集,利用对话模板对此模型进行微调,这一步被证明对提高模型的生成可靠性和整体可用性至关重要。
具体来看,研究团队分两个阶段训练了MiniGPT-4模型。
第一阶段,研究团队首先在四张 NVIDIA A100显卡上利用了大约500万个对齐的图像-文本对,让 MiniGPT-4进行了十个小时的训练。在第一阶段之后,Vicuna 能够理解图像。但是 Vicuna 的生成能力受到了很大的影响。
为了解决这个问题并提高可用性,研究人员提出了一种通过模型本身和 ChatGPT 一起创建高质量图像文本对的新方法。因此,展开了第二阶段的微调训练,该模型使用 MiniGPT-4和 ChatGPT 之间的交互生成的3,500个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4生成的不正确或不准确的图像描述。
这一步显著提高了模型的可靠性和可用性,MiniGPT-4能够连贯地和用户友好地谈论图像,并且只需要在单个 NVIDIA A100上进行七分钟的训练。让研究人员自己都感到惊讶的是,这个阶段的计算效率很高。
MiniGPT-4架构
MiniGPT-4Vicuna 的语言模型遵循 "Alpaca 公式",使用 ChatGPT 的输出来微调 LLaMA 系列的 Meta 语言模型。据说 Vicuna 与 Google Bard 和 ChatGPT 相当,同样只需相对较小的训练工作量。
当前,该研究团队已经将 MiniGPT-4的代码、预训练的模型和收集的数据集在 GitHub 上开源:https://minigpt-4.github.io/。
拥有和 GPT-4相似的图片解析功能
正如开头所述,该研究团队推出的 MiniGPT-4拥有和 GPT-4相似的功能。譬如:
给它一张图,便能生成详细的图像描述:
也能讲出图片中搞笑、有趣的部分:「星期一通常被认为是一周中最令人恐惧的一天」。
还能在进一步交互中发现不寻常的内容,如:虽然仙人掌有可能在寒冷的气候条件下生长,但很少看到仙人掌生长站在冰冻的湖泊中间。此外,水面上形成的大冰晶也不是常见的现象。
于是,MiniGPT-4给出了自己的见解:这张图片很可能是数字创作或操控的。
当然,和 GPT-4演示的一样,MiniGPT-4也能根据手绘草图生成网站:
识别图像中的问题并提供解决方案:
以及创造诗歌或说唱歌曲的灵感:
此外,也能根据图片续写故事,给产品做广告,对图像展现的画面进行评论、检索与图片有关的事实,以及当给定一张准备好的菜肴照片时,该模型可以输出(可能)与之匹配的食谱或者生成一个适合视障人士的图像描述。
开源类 GPT-4模型层出不穷
鉴于 OpenAI 没有透露太多关于 GPT-4架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法的细节,强大的 LLM 的开源 MiniGPT-4可能在研究方面具有重要意义。
对于 MiniGPT-4的到来,也引发了一些 HN 网友的热议,有网友表示:
在技术层面上,这个研究团队正在做一些非常简单的事情--将 BLIP2的 ViT-L Q-former,用一个线性层连接到 Vicuna-13B,并在一些图像-文本对的数据集上只训练这个小层。
但结果是相当惊人的。它完全打败了 Openflamingo 和甚至原始的 blip2模型。最重要的是,它比 OpenAl 的 GPT-4图像模态更早到达。(这是)开源人工智能的真正胜利。
也有媒体评价到,「MiniGPT-4是开源社区在很短时间内取得快速成功的另一个案例。前几天,开源聊天机器人 OpenAssistant推出,使用从志愿者那里收集的指导数据进行训练,并打算最终成为一个 ChatGPT 的开源平替。这表明纯AI 模型公司的护城河可能没有那么高。在这种趋势下,对于 OpenAI 公司而言,首先应该专注于使用 ChatGPT 插件为 GPT-4建立一个合作伙伴生态系统,而不是现在就训练 GPT-5,这是有意义的。」
事实上,除了OpenAssistant、MiniGPT-4之外,GitHub 上也有网友盘点了近段时间来诞生的许多开源模型(https://github.com/nichtdax/awesome-totally-open-chatgpt),如Databricks 推出的 Dolly 模型、类 ChatGPT 的PaLM-rlhf-pytorch、OpenChatKit 等等,为此,你认为开源大模型在此趋势下会迎来什么样的发展机遇?欢迎留言分享你的看法。
关于 MiniGPT-4模型的更多内容可参考:
项目地址:https://minigpt-4.github.io/
GitHub地址:https://github.com/Vision-CAIR/MiniGPT-4
论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
参考:
https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/
蒂姆·库克谈生成式人工智能:「我们拥有使我们与众不同的优势」
在今天覆盖2024年第二财季的财报电话会议上,苹果公司首席执行官蒂姆·库克再次谈到了苹果在生成式人工智能方面的工作。他说,苹果拥有的「优势」将使公司在人工智能时代「脱颖而出」,并且不久的将来会向客户分享一些「非常激动人心的事情」。我们对我们在生成式人工智能领域的机会感到非常乐观。我们正在进行重大投资,我们期待着很快与我们的客户分享一些非常激动人心的事情。站长网2024-05-03 22:33:560000英伟达开源大模型对齐框架—NeMo-Aligner
随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多,为了确保输出的内容安全、可靠,对齐成为开发人员的关注重点和难点。但现在的模型参数少则几百亿多则上千亿,想通过传统的监督式微调方法来完成对齐效果往往不理想。站长网2024-05-13 09:35:300001哈尔滨冰雪大世界爆火,“左右哥”涨粉199万!他做了什么?
最近,哈尔滨相关话题热度在抖音平台持续攀升,话题播放量高达几十亿。不少博主、素人都跑到东北旅游,其中最引人瞩目的是@冰城左右哥(兔子舞版)(以下简称“左右哥”)的账号。该账号在不到一个月的时间内疯狂吸粉,从58.7万增长至257.7万,总共涨粉199万。很多新媒体从业者问我,他是怎么火的?让我深度分析一下。他的迅速走红不是侥幸,完全是凭借实力,话不多说,今天通过3000字的干货带大家了解。站长网2024-01-15 17:04:170001FF:已收到超300台FF 91限量版免订金预订
贾跃亭旗下FaradayFuture(FF)宣布,在阿布扎比举行FF中东战略发布会后72小时内,已收到300多份FF912.0FuturistaiFalcon限量版的不具约束力的免订金预订。站长网2023-11-28 16:40:060000卢伟冰回应小米15 Pro价格口误:为发布会增添了一些乐趣
在今日上午,小米集团的卢伟冰对于昨晚发布会上的报价失误做出了回应。在公布小米15Pro的价格时,卢伟冰不慎将5299元的价格误报为3000元,随后立即更正,引发了现场观众的热烈欢呼。卢伟冰解释称,前一晚在宣布小米15Pro的价格时发生了口误,为发布会增添了一些乐趣。他强调,小米系列将持续走高端化路线,不断投入核心技术,以用户体验为中心,坚持极致的设计和审美引领。0000