多模态模型再进化,已学会看图玩扑克、算“12点”
在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微调,已经学会了看图玩扑克、算“12点”等任务,并且其表现超越了GPT-4v。

研究团队由多位重量级人物组成,包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun,UC伯克利的Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。
RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。

为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。
具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。
实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。
RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。
为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。
消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
论文地址:https://arxiv.org/abs/2405.10292
项目地址:https://top.aibase.com/tool/rl4vlm
Uber Eats 的新人工智能聊天机器人将为顾客提供推荐 加快订购速度
站长之家(ChinaZ.com)8月29日消息:据彭博社的一份新报告称,UberEats正在开发一款基于人工智能的聊天机器人,该机器人将向用户提供推荐并为他们提供更快捷的下单方式。站长网2023-08-29 11:21:300000研究使用AI成像技术筛查狗狗皮下和皮下肿块
🔍划重点:-🐶研究证明AI和热成像技术在筛查犬皮下和皮下肿块中的准确性。-🔬HTVista的研究使用机器学习算法进行了两个阶段的验证。-🏥这一创新系统有望成为辅助诊断工具,帮助早期癌症检测。站长网2023-10-31 16:09:190000这个小产品,在抖音热销30W+
各位村民好,我是村长。在抖音上其实有很多热销10W的小单品,比如我们前面分享过的衣领贴。这款产品卖了79.8万单今天我们再来和大家分享三个小物件,都是我们生活中较为常见有极其容易忽略的。不知道各位平常在家中会不会不小心撞到了桌角、门窗角、墙角?今天要来分享的产品就是防撞贴,而且不止一款产品。01日常生活必备好物在我们日常生活中,经常会不小心撞到各种边边角角。站长网2023-04-14 11:25:210001蔚来全新ES6将于5月24日正式发布 5月25日开始交付
蔚来官方宣布,新款ES6将于5月24日正式发布,并将开启试驾,5月25日开始交付。同时,从今天起,新ES6已经开启预订。用户可通过支付预订金5,000元,并在2023年7月31日前将其转为定金来享受限时预售权益,包括获赠价值8,000元的Moon主题外观套件和气辉橙色卡钳,另外还可以获得价值9,120元的NOP两年的免费使用权。站长网2023-05-16 10:54:350000AI全面赋能!雷军:小米汽车几乎全身都是先进AI科技
今日,雷军在微博上再次为小米汽车发声。雷军表示:“小米汽车几乎全身都是先进AI科技。”并分享了一篇深度文章《为什么说小米汽车,全身都是AI科技?》。文章详述了小米汽车如何运用AI技术,从材料仿真、电机设计到智能驾驶等各个层面,为读者揭示了小米汽车在科技应用方面的深厚底蕴。0000