多模态模型再进化,已学会看图玩扑克、算“12点”
在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微调,已经学会了看图玩扑克、算“12点”等任务,并且其表现超越了GPT-4v。
研究团队由多位重量级人物组成,包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun,UC伯克利的Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。
RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。
为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。
具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。
实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。
RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。
为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。
消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。
论文地址:https://arxiv.org/abs/2405.10292
项目地址:https://top.aibase.com/tool/rl4vlm
深入剖析《2023 年人工智能现状报告》:AI 大语言模型和未来挑战
站长之家(ChinaZ.com)10月19日消息:人工智能领域年度报告作为一个重要的基准,为迅速发展的人工智能领域提供了明确的方向和洞察力。其全面的分析一直为研究人员、行业专业人员和政策制定者提供了宝贵的见解。今年的报告着重强调了大型语言模型(LLMs)领域的一些显著进展,强调了它们日益增长的影响力以及对AI社区的广泛影响。图片来自stateof.aiGPT-4的的主导地位站长网2023-10-19 17:22:140001马斯克旗下AI公司 xAI 将完成 60 亿美元融资
近日,马斯克旗下的人工智能公司xAI传来了振奋人心的消息,该公司即将完成一笔高达60亿美元的融资交易,标志着人工智能领域又迎来了一次重磅的资本运作。这一轮融资不仅将显著提升xAI的资金实力,更将使其估值飙升至惊人的180亿美元,展现了公司巨大的发展潜力。随着新一轮融资的完成,xAI将拥有更多的资金用于AI算力资源的获取,以与openAI、Anthropic等竞争对手展开激烈的模型竞争。站长网2024-04-26 16:17:100000东方甄选的付费会员“甄选”了谁?
做付费会员制,在中国已经不是新鲜事了。早在1996年,山姆会员店就在深圳开了中国第一家付费的会员制商超。经过这二十多年的发展,不仅山姆会员店迅速扩张,发展强势,像Costco、盒马鲜生、麦德龙等仓储会员店也纷纷冒头,整条赛道都变得火热起来。前段时间,付费会员制赛道里跑进来一位跨界选手,做直播带货的东方甄选高调推出App付费会员业务,价格为每年199元。站长网2023-10-26 11:11:040000Pika 1.0首测秒杀Gen-2!网友抢先体验电影级炸裂效果,背后技术细节首公开
Pika1.0正式上线后,拿到内测资格的网友们已经玩疯了!有人用它生成了一个姜黄色头发女孩和她的姜黄色猫的短片。以往,因为一致性的难题,用AI视频很难做出优秀的动漫作品。但是Pika1.0,实在是太给人惊喜了!更令人震惊的是,作者表示,这是100%用文本到视频生成的。还记得半个月前,这家有斯坦福AILab博士创办的初创公司Pika,发布的第一个产品瞬间成为顶流。站长网2023-12-10 09:27:260003全球270万菜品组合AI餐厅,用类ChatGPT辅助服务员
11月5日,大模型平台BrownBaconAI与著名意大利餐厅CiboVino合作,推出了全球首个使用生成式AI辅助服务员的餐厅。据悉,该产品的功能、使用方法与ChatGPT基本一样,但提供的知识主要聚焦在餐饮上,CiboVino通过将自己的菜品、酒水、活动等数据与AI模型相结合,可以根据顾客的心情、用途、季节等场景,提供高达270万种菜品、酒水组合建议。0000