首页站长资讯从ALOHA迈向Humanplus，斯坦福开源人形机器人，「高配版人类」上线

从ALOHA迈向Humanplus，斯坦福开源人形机器人，「高配版人类」上线

站长网2024-06-16 23:51:060阅

人形机器人的「Hello World」。

说起前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人，大家肯定印象深刻，ALOHA 做起家务活来那是有模有样:滑蛋虾仁、蚝油生菜、干贝烧鸡，一会儿功夫速成大餐:

研究团队来自斯坦福，由三个人共同打造完成。Zipeng Fu 为项目共同负责人，他是斯坦福大学 AI 实验室的计算机科学博士生，师从 Chelsea Finn 教授;Tony Z. Zhao 也是斯坦福大学的计算机科学博士生，导师也是 Chelsea Finn。

现在，继 ALOHA 之后，Zipeng Fu、Chelsea Finn 等人又联合推出了一款新的机器人研究 HumanPlus，不过这次 Tony Z. Zhao 没有出现在作者栏里，而是在致谢名单上。

HumanPlus 团队成员。

这款机器人能够自主的叠衣服，然而即使是2倍速，动作看起来也是慢吞吞:

充当仓库的搬运工，准确的将物品放置在机器狗背上的篮子里:

给大家表演个向后跳的节目，就像人类一样，扎个马步让自己稳妥一点:

可能你都不会弹的钢琴，但这次机器人会了，它不是乱弹一通，仔细听还能听出旋律来:

化身你的乒乓球搭子，来上几个回合没有问题:

像个电脑新手一样，在键盘上努力的敲出「HELLO WORLD」

打起拳来也是有模有样

值得一提的是，这次斯坦福团队公布了论文、机器人材料清单、数据集以及代码。正如 Tony Z. Zhao 所表示的「这是唯一一篇完全开源的论文，虽然我们处在一个前沿的研究时代，但充满了闭源、竞争等其他因素的限制，这个领域需要更多开放的科学，而不是酷炫的演示。」

根据材料清单我们推测完成机器人组装大约花费107，945美元。

研究介绍

论文地址:https://humanoid-ai.github.io/

论文标题:HumanPlus: Humanoid Shadowing and Imitation from Humans

长期以来，人形机器人因其类似人的形态而备受关注。这主要得益于我们周围的环境、工具等都是依据人类形态而设计的，因此人类大小的机器人在解决人类从事的任务上潜力巨大。

通过模仿人类，人形机器人为实现通用机器人智能提供了一个充满希望的途径。

然而，在实际操作中，要让人形机器人从以自我为中心的视角学习自主技能仍然面临挑战。这主要是因为人形机器人在感知和控制方面的复杂性，以及其在形态结构和执行机制上与人类之间仍存在的物理差异。此外，还缺乏一套数据处理流程，可以让人形机器人通过以自我为中心的视角学习自主技能。

基于此，斯坦福团队开发了一个全栈系统，用于人形机器人从人类数据中学习运动和自主技能。该研究首先基于40小时的人体运动数据集，通过强化学习在模拟环境中训练低级策略。然后将这一策略迁移到现实世界中，从而允许人形机器人仅使用 RGB 相机实时跟踪人体和手部运动，称为 Shadowing 系统。

通过 Shadowing，人类操作员可以远程操作人形机器人来收集全身数据，以便在现实世界中学习不同的任务。基于收集到的数据，随后进行有监督的行为克隆，使用以自我为中心的视角来训练机器人的技能策略，使人形机器人能够通过模仿人类的技能自主完成不同任务。

研究者在定制的33自由度、高180cm 的人形机器人上演示了该系统，通过多达40次演示，该系统可以自主完成诸如穿鞋站立和行走，从仓库货架上卸载物品，折叠运动衫，重新排列物品，打字以及与另一个机器人打招呼等任务，成功率为60-100%。

该研究团队发布的机器人如图2左侧所示，具有33个自由度，其中包括两个拥有6自由度的手指、两个1自由度的手腕和一个有19自由度的身体（包含:两个4自由度的手臂、两个5自由度的腿和一个1自由度的腰部）。

该系统基于 Unitree H1机器人构建，每只手臂集成了 Inspire-Robots RH56DFX Hand，通过定制手腕连接，其中每个手腕配有一个 Dynamixel 伺服电机和两个推力轴承。手和手腕均通过串行通信控制。

机器人头部安装了两个 RGB 网络摄像头（Razer Kiyo Pro），向下倾斜50度，瞳距为160毫米。手指可以施加高达10牛顿的力，而手臂可以举起重达7.5公斤的物品。腿部的电机在操作过程中可以产生高达360Nm 的瞬时扭矩。图2右侧提供了该机器人的其他技术规格信息。

人体部分和手部动作使用 SMPL-X 模型进行参数化。为了重定向身体姿态，研究人员将 SMPL-X 对应的欧拉角复制到类人模型中，即髋部、膝盖、脚踝、躯干、肩膀和肘部。机器人的每个髋部和肩部关节由3个正交旋转关节组成，因此可以视为一个球形关节。机器人的手指有6个自由度:每个食指、中指、无名指和小指各1个自由度，大拇指2个自由度。为了重定向手部姿势，他们使用中间关节的旋转来映射每个手指的对应欧拉角。并且通过使用前臂和手的全局方向之间的相对旋转，计算1自由度的手腕角度。

如图3所示，身体姿势估计和重定向在 NVIDIA RTX4090GPU 上以每秒25帧的速度运行。

实时手部姿势估计和重定向:该团队使用 HaMeR——一个基于 Transformer 的手部姿态估计器，通过单个 RGB 摄像头进行实时手部姿态估计。手部姿势估计和重定向在 NVIDIA RTX4090GPU 上以每秒10帧的速度运行。

该研究将低级策略 Humanoid Shadowing Transformer 制定为仅解码器的 Transformer，如图4左侧所示。

在每个时间步中，策略的输入是人形机器人的本体感知和目标姿态。策略的输出是人形机器人身体关节的19维关节位置设定点，这些设定点随后通过1000Hz 的 PD 控制器转换为扭矩。

随机化模拟环境和人形机器人的物理参数见表2。

如图3所示，研究者使用单个 RGB 摄像头实时估计人体和手部姿态，并将人体姿态重定向为类人目标姿态。

如图1所示，人类操作员站在人形机器人附近，将他们的实时全身运动投射到人形机器人上，并使用视线观察人形机器人的环境和行为，确保远程操作系统反应灵敏。

在被远程操作时，人形机器人通过双目 RGB 摄像头收集第一视角视觉数据。通过 shadowing，研究人员为各种现实场景任务提供了一条高效的数据收集管道，从而避免了模拟环境中真实 RGB 渲染、精确软体对象模拟和多样化任务规范的挑战。

与其他远程操作方法相比，Shadowing 系统更具优势。

从ALOHA迈向Humanplus斯坦福开源人形机器人高配版人类上线

0000

评论列表

共(0)条

相关推荐

站长资讯
RTX 4070 SUPER刚上市一天：闪电破发！
1月17日晚，RTX4070SUPER新鲜上市，凭借不错的价格和性能被认为是一款良心卡”，但没想到仅仅一天，它就破发了！在波兰，耕升的RTX4070SUPERGhost标频版官方定价2999兹罗提，但零售平台X-Kom已经打出了2849兹罗提的破发价，降幅为5％。有趣的是，RTX4070在当地去年9月曾降至2880兹罗提，如今低至265兹罗提左右。
站长网2024-01-19 09:02:45
0000
“厂一代”“厂二代”打破内卷勇闯全球，SHEIN们保驾护航
近几年，眼看着身边的鞋厂同行都在做跨境电商，李瑞与王莉夫妇经常羡慕不已。他们的家乡福建晋江被誉为“中国鞋都”，每年的运动鞋产量超过千亿双，全球有六分之一的人脚上穿的是来自晋江鞋厂生产的运动鞋。但与产品远销全球的傲人成绩略有不符的是，晋江的大部分鞋厂是只有几间自有厂房、几百名员工的中型企业。随着行业内同行竞争的加剧，原本稳固的客户被不断抢夺、分割，大部分鞋厂在国内市场能够获得利润越来越薄。
站长网站长资讯2024-06-15 09:42:27
0000
站长资讯
vivo X100标准版参数曝光内存影像全面升级
vivo于近日宣布，将于11月13日在北京发布X100系列新品。据博主@数码闲聊站爆料，vivoX100标准版将首发搭载联发科最新的旗舰处理芯片天玑9300，同时，vivoX100将升级内存，采用16GBLPDDR5T运存，并增强防水性能，支持IP68。
站长网2023-11-02 10:40:56
0000
站长资讯
百度：2024年Q2通过AI清理有害信息共160.4亿余条
近日，百度对外公布2024年第二季度信息安全综合治理数据。百度内容安全中心当季共计清理各类有害信息160.6亿余条。其中，通过人工智能技术挖掘并打击以淫秽色情类、赌博类等为主的相关有害信息共160.4亿余条;通过人工巡查方式打击以淫秽色情类、侵权类等为主的相关有害信息共计2435万余条。
站长网2024-09-13 17:31:29
0000
站长资讯
全球最赚钱黑人社交App，背后的故事
我们在两个月前发布的《18亿潜在用户的“小众”交友App，到底有多赚》一文中讨论了穆斯林群体的交友偏好和社交现状，引起了不少读者对“垂直群体社交所蕴含的机会”的思考。黑人社交，MatchGroup绝对把控、女性更加艰难因此我们打算继续这个小众系列，而今天探讨的则是黑人群体的Dating偏好。先来说我们得出的几个关键结论:
站长网2024-02-22 09:17:13
0000