英伟达最新AI AgentEureka开源 可完成转笔等复杂动作
要点:
英伟达的最新AI AgentEureka使用GPT-4生成奖励函数,教会机器人完成多项复杂任务,包括转笔、打开抽屉、抛球等,表现超越人类专家。
Eureka采用混合梯度架构,结合无梯度的情境学习和强化学习,通过上下文来实现人类水平的奖励算法设计,大幅提升机器人性能。
这项研究受到广泛关注,开源项目可在机器人领域应用,尤其在处理复杂任务和高维电机控制方面表现出色,甚至有时与人类策略负相关。
英伟达最新的AI AgentEureka搭载了强大的GPT-4模型,通过生成奖励函数的方式,使机器人能够完成多项复杂任务,其中包括一些看似简单但难以实现的动作,如转笔、打开抽屉、抛球等。这一成就令人瞩目,尤其是在转笔这项技能上,即便是靠人类逐帧制作动画,也难以达到如此高水准。研究结果显示,Eureka在超过80%的任务中都超越了人类专家,使机器人的平均性能提升了50%以上。
论文链接:
https://arxiv.org/abs/2310.12931
GitHub链接:
https://github.com/eureka-research/Eureka
Eureka的关键创新在于采用了一种混合梯度架构,结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化。在外循环中,GPT-4细化奖励函数,而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能,而不需要特定的提示工程和奖励模版。
Eureka还支持一种新形式的上下文强化学习,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。在对29种不同的开源RL环境进行基准测试时,Eureka在83%的测试中超越了人类,并实现了52%的改进。这些测试环境包括10种不同的机器人形态,如四足机器人、四旋翼机器人、双足机器人和机械手等。
最令人惊讶的是,Eureka在处理复杂、高维电机控制的任务上表现更佳,有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效,类似于AlphaGo在下棋策略上的表现。这项研究由英伟达、宾夕法尼亚大学、加州理工学院和德州大学奥斯汀分校的研究人员合作完成,其中近半数研究人员都是华人。这一成就为机器人学习和强化学习领域带来了革命性的突破,也引发了广泛的关注和期待。
专家称:AI帮助FBI打击“性勒索”骗局发挥重要作用
由于人工智能技术的广泛使用,AI在帮助FBI打击这些骗局中发挥了重要作用。根据FBI的数据,2022年2月至2023年2月,性敲诈案件增加了322%,而自那以后又有明显增加,这些案件导致了许多受害者自杀。站长网2023-07-18 06:37:260001AI水印能解决生成式AI的信任问题吗?
划重点:-随着生成AI技术的迅速发展,人们越来越难以区分AI生成的内容和人工生成的内容。-数字水印技术是否能帮助人类重新获得对内容的控制是一个备受争议的问题。-尽管一些专家认为水印技术是建立和维护AI时代信任的多方面方法的一部分,但也有人认为技术挑战和潜在的滥用问题仍然存在。站长网2023-11-07 10:29:040000预制菜明确不允许添加防腐剂 六部门明确预制菜定义和范围
站长之家(ChinaZ.com)3月22日消息:近日,市场监管总局携手教育部、工业和信息化部、农业农村部、商务部以及国家卫生健康委共同发布了《关于加强预制菜食品安全监管促进产业高质量发展的通知》,旨在规范预制菜行业的食品安全,并推动产业的健康、快速发展。站长网2024-03-22 10:16:190000免费版“Github Copilot”,编程能力还翻倍?!谷歌硬刚微软,推出全新Colab编程平台
最近,谷歌宣布GoogleColaboratory(Colab)即将加入全新的AI编码功能,包括代码生成、代码补全、代码聊天机器人。而且,最重要的是,与GitHubCopilot每月10美元的订阅费用相比,谷歌全新的AI编码功能将完全免费!站长网2023-05-29 11:59:0200013UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五
日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的OpenAssistant排在第三。清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。站长网2023-05-05 11:10:180001