多模态模型再进化,已学会看图玩扑克、算“12点”
在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微调,已经学会了看图玩扑克、算“12点”等任务,并且其表现超越了GPT-4v。
研究团队由多位重量级人物组成,包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun,UC伯克利的Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。
RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。
为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。
具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。
实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。
RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。
为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。
消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
论文地址:https://arxiv.org/abs/2405.10292
项目地址:https://top.aibase.com/tool/rl4vlm
GPT-5只会更笨!斯坦福莱斯研究警告,AI训AI超过5次,模型反噬,性能大减
用AI生成的数据训练AI,不会有魔法,只会被反噬。近日,莱斯大学和斯坦福团队发现,将AI生成的内容喂给模型,只会导致性能下降。研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。论文地址:https://arxiv.org/abs/2307.01850研究发现在使用AI数据,经过第5次迭代训练后,模型就会患上MAD。66在合成数据上训练AI模型会逐渐放大伪影站长网2023-07-23 14:23:110000B站已经部分上线前台实名
有网友发现B站已部分上线前台实名认证功能。此前,B站官方在10月31日发布公告,宣布将分批次分阶段引导粉丝量50万以上的自媒体账号进行前台实名展示。首批将引导粉丝量在100万以上的自媒体账号进行前台实名操作。用户同意实名后,相关实名信息可在账号资料页进行查看;如不同意实名,后续账号流量、收益等会受到限制。站长网2023-11-21 16:31:320000苹果官网突然降价:商品数量有限 最高立省800元
苹果公司在中国的官方网站宣布,将从1月4日至7日举行“叱咤福利”新年促销活动。在这次活动中,消费者在购买指定商品时,如果使用符合条件的支付方式,每位顾客每个产品类别限购2件,可享受最高800元人民币的立减优惠,同时换购新iPhone还能获得额外的折抵优惠。0000高通推出第三代骁龙7处理器 AI性能提升90%
高通宣布推出第三代骁龙7移动平台,第三代骁龙7移动平台采用了全新的CPU架构,最高主频高达2.63GHz,采用64位架构,CPU整体性能提升近15%,GPU性能提升超过50%。同时,第三代骁龙7移动平台整体功耗降低20%,并带来更持久的续航。站长网2023-11-17 15:49:160002自定义ChatGPT商店下周上线!用户可自定义ChatGPT助手
要点:1、OpenAI将上线自定义GPT商店,用户可以将自己开发的自定义ChatGPT助手进行分享并获得付费收入。2、自定义GPTs是OpenAI在去年发布的重磅产品,用户可以通过可视化点击操作开发特定领域的ChatGPT助手。3、商店中的自定义GPT助手可以是私有模型,只与自己的同事或公司内部分享,也可以对全球用户开放。0000