南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
要点:
通过在大量视觉输入和可执行代码的数据对的训练,Octopus 学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。
研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus,研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
论文地址:https://arxiv.org/abs/2310.08588
项目网页:https://choiszt.github.io/Octopus/
开源代码:https://github.com/dongyh20/Octopus
OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境,包含了476个符合现实生活的家务活动,模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》(GTA)游戏,构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus,并通过强化学习算法进一步提升模型的任务规划能力。
为了高效收集训练数据,研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者,通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4,再在仿真环境中执行代码,并判断任务是否完成。如果任务失败,会回到上一步的起始位置重新采集数据。在数据收集过程中,研究者记录了每个子任务的成功情况,为后续引入强化学习提供了基础。
通过在大量训练数据上进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵循固定格式输出的 VLM 模型。然后,他们引入了 RLEF(Reinforcement Learning with Environmental Feedback)来进一步提升 Octopus 的任务规划能力,利用先前采集的子任务的成功情况作为奖励信号。
实验结果显示,经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升,即使面对模糊的任务指令,也能提供更加合理的计划。
综上所述,Octopus 是一种具备视觉可编程能力的智能体,通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力,通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探索视觉 - 语言模型的应用提供了新的思路。
大年初一 拜大年!马斯克晒特斯拉龙年海报贺新年
快科技2月10日消息,今天是大年初一,迎新春,拜大年,不少手机厂、车厂CEO发文庆祝新年。特斯拉CEO埃隆马斯克今日也在微博和X平台发文,并配有一张特斯拉海报,祝贺大家龙年大吉,并用英文写出TheYearoftheDragon”。这张特斯拉海报设计的很细节,龍”字中藏了S、3、X、Y,分别代表ModelS、Model3、ModelX、ModelY车型。站长网2024-02-10 10:40:000000开封“王婆”换人后节目热度不减:现场人山人海 景区启动限流
4月4日消息,开封万岁山大宋武侠城《王婆说媒》节目火爆全网,每天都有众多游客前去打卡。日前,万岁山武侠城”公众号发布公告,称王婆扮演者之一赵梅因健康原因自2024年4月3日起请假一个月。在此期间,由李莉等其他扮演者为游客演出《王婆说媒》,并加场相关才艺演出。王婆”换人是否影响景区人气?据媒体报道,景区一名工作人员表示,今日依旧游客量较大,节目人气不减。站长网2024-04-08 12:47:380000Box 推出 Google Cloud Vertex AI 支持的生成式人工智能工具:可更快地处理和分析文档
站长之家(ChinaZ.com)11月3日消息:云内容管理平台Box日前宣布将与GoogleCloud的VertexAI平台集成,以帮助企业构建生成式人工智能特性,使用户能够更轻松地处理和分析存储在BoxContentCloud中的数据。站长网2023-11-03 11:53:450000微软发布包含 Copilot 人工智能助手的 Windows 11 大更新
站长之家(ChinaZ.com)11月1日消息:微软于周二宣布开始推出Windows11操作系统的下一次重大更新(即23H2)。新版本包括一个名为Copilot的聊天机器人,与创业公司OpenAI的热门ChatGPT有一些相似之处。站长网2023-11-01 14:28:280000投入28万,月入1万,共享充电宝还能赚到钱吗
继“偷单”(消费者在租借共享充电宝后,并未通过正常渠道支付费用,但品牌方通过某些技术手段绕过支付环节,造成加盟商收益损失)套路之后,共享充电宝再一次出现在消费者视野中,是因为代理商和品牌的纠纷。0000