南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
要点:
通过在大量视觉输入和可执行代码的数据对的训练,Octopus 学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。
研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus,研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
论文地址:https://arxiv.org/abs/2310.08588
项目网页:https://choiszt.github.io/Octopus/
开源代码:https://github.com/dongyh20/Octopus
OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境,包含了476个符合现实生活的家务活动,模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》(GTA)游戏,构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus,并通过强化学习算法进一步提升模型的任务规划能力。
为了高效收集训练数据,研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者,通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4,再在仿真环境中执行代码,并判断任务是否完成。如果任务失败,会回到上一步的起始位置重新采集数据。在数据收集过程中,研究者记录了每个子任务的成功情况,为后续引入强化学习提供了基础。
通过在大量训练数据上进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵循固定格式输出的 VLM 模型。然后,他们引入了 RLEF(Reinforcement Learning with Environmental Feedback)来进一步提升 Octopus 的任务规划能力,利用先前采集的子任务的成功情况作为奖励信号。
实验结果显示,经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升,即使面对模糊的任务指令,也能提供更加合理的计划。
综上所述,Octopus 是一种具备视觉可编程能力的智能体,通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力,通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探索视觉 - 语言模型的应用提供了新的思路。
网易回应被曝大规模裁员:消息不实 正常业务调整
快科技1月19日消息,据国内媒体报道,针对网传网易1月开启大规模裁员”等消息,网易内部人士回应:消息不实。该人士称,系公司正常业务调整和人员流动,公司层面仍在持续招聘优质人才。据透露,为促进业务良性发展,网易传媒部分业务线在近期进行了内部资源整合,未来传媒将持续加码内容赛道,探索AIGC、元宇宙等新技术赋能内容。0000微软计划于 2024 年发布「突破性」的以 AI 为中心的 Windows 版本
在经历了领导层的重大变革和前Windows负责人PanosPanay离职之后,微软在新成立的Windows&WebExperiences团队的领导下,开始制定新的Windows路线图,该团队目前负责开发下一个主要的Windows客户端更新,代号为「HudsonValley」。0000苹果切断 Beeper Mini 对 iMessage 的访问权限
据国外媒体报道,近日苹果公司切断了BeeperMini对iMessage的访问权限,这是一款允许Android用户向iPhone用户发送加密消息的应用程序。站长网2023-12-11 10:48:500001花呗官微真会玩儿!一份AI手账打卡各大城市 网友都玩疯了
不知大家有没有发现,近期网络上掀起了一股AI花呗手账热潮,内容丰富多彩,从城市地标到日常的奶茶与咖啡,深受年轻人的喜爱。例如,有的手账描绘了天津的摩天轮,让网友不禁赞叹:真的绝美!”有的则展示了厦门海边的灯塔,并配文:人生是旷野而非轨道,停下来是为了更好地出发。既文艺范又充满哲理。还有网友分享了办公桌上的奶茶,配文写道:周五的奶茶很甜像即将到来的周末。”喷薄欲出期待感根本掩饰不住呀。站长网2024-07-24 21:45:200000TICD:清华新文生3D方法引领SOTA,多视角一致性再突破
要点:清华大学刘永进教授课题组提出的TICD模型在文生3D领域取得SOTA成绩,通过多视角一致性先验提升了生成的3D模型质量。TICD方法在T3Bench数据集上经过定性和定量测试,显示其在单对象、单对象带背景、多对象提示集上均达到最佳成绩,凸显整体优势。TICD通过以文本和图像为条件的多视角图像纳入NeRF监督信号,有效解决了预训练扩散模型的局限性,提高了生成3D模型的一致性和质量。站长网2023-12-29 14:17:000000