多模态模型再进化,已学会看图玩扑克、算“12点”
在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微调,已经学会了看图玩扑克、算“12点”等任务,并且其表现超越了GPT-4v。
研究团队由多位重量级人物组成,包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun,UC伯克利的Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。
RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。
为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。
具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。
实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。
RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。
为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。
消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
论文地址:https://arxiv.org/abs/2405.10292
项目地址:https://top.aibase.com/tool/rl4vlm
苹果市值一夜蒸发7660亿元 收跌3.6%
1月2日,苹果股价收跌3.6%。此次下跌导致苹果市值缩水至2.89万亿美元,一夜之间蒸发了1071亿美元,折合人民币约7660亿元。这一跌幅创下了自2023年8月4日以来的最大单日跌幅,并触及2023年11月9日以来的收盘新低。值得一提的是,在2023年内,苹果股价累计上涨了49%。站长网2024-01-03 08:19:320000研究人员发现ChatGPT生成代码大部分不安全 但它不会主动告诉你
加拿大魁北克大学的四名研究人员近日发现,聊天机器人ChatGPT能生成C、C、Python和Java等各种编程语言代码,但该机器人生成的代码存在严重的安全漏洞,而且不会主动提醒用户。研究人员在一篇论文中介绍了他们的发现。论文中,研究人员让ChatGPT生成了21个程序和脚本,结果发现,在第一次尝试时,ChatGPT只有5个程序是安全的。站长网2023-04-23 10:27:570001印媒:OpenAI 可能会在 2024 年底破产 ChatGPT 需要巨大的运行成本
ChatGPT去年发布后,成为增长最快的人工智能平台之一。然而,近几个月来,最初的欣喜若狂的人数增长已经停止。OpenAI是把人工智能(AI)带入寻常百姓家的公司,但它可能面临不乐观的未来。根据AnalyticsIndiaMagazine的一份报告,按照目前的速度继续烧钱,由SamAltman领导的公司可能会在2024年底之前破产。站长网2023-08-14 14:15:340000淘宝公布 2023 年度十大商品 洞洞鞋、酱香拿铁等上榜
近日,淘宝公布了2023年度十大商品名单,其中包括爱因斯坦的脑子,辅酶Q10、马面裙、洞洞鞋、孙子兵法、乌梅子酱、核能充电宝、演唱会定制灯牌、酱香拿铁、涿州图书加油包等入选最终的十大名单。站长网2023-12-25 18:54:390000AI视频剪辑工具MorphCut:自动删除视频中的多余停顿、语气词等
近期,一项名为"JumpCutSmoothingforTalkingHeads"的研究提出了一种创新性的框架,用于在说话头部视频中平滑处理跳切,提升观看体验。MorphCut是一个由华盛顿大学和Adobe研究中心开发的项目,旨在帮助视频编辑人员自动删除视频中的冗余语气声音和创建平滑过渡,使视频更加自然和连贯。站长网2024-01-10 14:53:390002