多模态模型再进化，已学会看图玩扑克、算“12点”

站长网2024-06-04 17:48:060阅

在科技领域，多模态模型的决策能力一直是研究的热点。最近，UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架，成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下，通过强化学习微调，已经学会了看图玩扑克、算“12点”等任务，并且其表现超越了GPT-4v。

研究团队由多位重量级人物组成，包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun，UC伯克利的Sergry Levine教授，以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布，并且相关代码已在GitHub上开源。

RL4VLM的核心是一种新的算法框架，它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是，奖励信息直接来源于环境，不再依赖于人类反馈。这不仅提高了效率，也赋予了多模态模型自主决策的能力。

为了全面评估RL4VLM的效果，研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力，包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。

具体到任务，研究团队设计了数轴（Numberline）、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中，ALFWorld是微软等于2020年提出的开源具身智能任务集，而其他任务则是研究团队的原创设计。

实验结果令人鼓舞。经过强化学习微调的多模态模型，在决策问题上的表现不仅超过了商用模型GPT-4v，同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中，RL4VLM模型取得了最高的平均分，尤其在单物体拾取任务上表现突出。

RL4VLM的工作流程是这样的:首先，系统将任务的当前状态以图片和文字描述的形式输入多模态大模型，并要求模型输出一段思维链，然后以文字形式输出要执行的动作。动作信息输入环境后，获得奖励值，该奖励值将用于强化学习训练。

为了适应RL训练框架，研究人员对模型的输入和输出进行了调整。具体来说，将任务图像和任务描述的文本合并后，直接作为当前任务的状态输入。在获得模型的文字输出后，将其转化为与环境交互的动作指令。

消融实验结果表明，使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路，也为未来人工智能的发展开辟了新的可能性。

论文地址:https://arxiv.org/abs/2405.10292

项目地址:https://top.aibase.com/tool/rl4vlm

多模态模型再进化已学会看图玩扑克算 12点

0000

评论列表

共(0)条

相关推荐

AI手机全球大调查！日本认知度最低
快科技12月29日消息，生成式人工智能（GenAI）技术智能手机行业中的应用成为热门话题。CounterpointResearch针对美国、加拿大、英国、法国、德国、波兰和日本等七国进行了一项关于GenAI的调查。结果显示，在超过2.5万名受访者中，仅有32%表示熟悉GenAI，其中美国的认知度最高，达到72%，而日本的认知度最低，仅7%的受访者表示了解。
站长网站长资讯2024-12-29 15:50:05
0000
胖东来，靠电商冲出河南？
胖东来今年频繁登上热搜。“胖东来一件羽绒服仅赚3毛钱”、“胖东来停售农残超标蔬菜”……在普通消费者心目中，胖东来俨然成了烙上“免检标签”的明星超市，无论是假羽绒服还是卫生巾塌方，都引发了一些人对胖东来相关产品的抢购。相对应的，胖东来代购商业链日益庞大，代购团队甚至逐渐走向职业化。这条商业链下，胖东来和普通本地顾客为代购而烦恼，另一边不少博主已经靠着直播代购胖东来商品赚得盆满钵满。
站长网站长资讯2024-12-26 18:09:39
0000
站长资讯
亚马逊CEO安迪·贾西表示生成式人工智能将改变每位顾客的体验
**划重点:**1.🌐安迪·贾西表示生成式人工智能将在亚马逊企业和自由消费者业务中改变顾客体验。2.🚀生成式人工智能将使开发者和业务用户更容易使用，提高社会效益。3.🗣️贾西认为亚马逊将在生成式人工智能领域取得领导地位，将其应用于改进购物体验和升级虚拟助手Alexa。
站长网2023-12-08 18:51:25
0001
中国市场潜力巨大！曝网易暴雪复合已在日程中
据21财经消息，近日，有多位知情人士透露，暴雪和网易的“复合”事宜已经提上日程。虽然双方官方尚未对此做出明确回应，但一些迹象表明，这一消息并非空穴来风。据观察，网易旗下游戏玩家论坛APP“网易大神”中的魔兽世界社区近期已经恢复更新，并增加了包括地心之战、魔兽探索服在内的新内容。这一举动引发了业内人士的广泛关注，纷纷猜测这是否意味着暴雪和网易即将再度携手。
站长网站长资讯2023-12-28 10:17:20
0000
站长资讯
character.ai：免费创建你的个人AI代理/伴侣
近日，YouTube播主WorldofAI发布了一个介绍character.ai项目的视频。该项目是一个革命性的举措，旨在实现科幻梦想。视频中，博主深入探讨了与计算机进行开放式对话和合作的领域，使得栩栩如生的角色成为现实。视频地址:https://www.youtube.com/watch?v=4ujVw7hZSFc体验地址:https://beta.character.ai/
站长网2023-07-31 10:27:52
0000