稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核
刚刚!鸽了两年之后,稚晖君罕见更新视频——
上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。
评论区早已经是听取哇声一片。
他自己表示,悄咪咪研发了三个月,视频准备了一个月。嗯,鸽的越久,事情越大!
据介绍,之所以这次如此有人味儿,源于背后集齐了运动、交互、作业三大智能。
于是乎,四年前葡萄缝针的神技,再次在灵犀X2上看到了。
它能像人一样,有着一呼一吸的韵律。
它可以毫秒级交互,帮助你决策一些日常的选择困难。
睡前该喝什么饮料。
除此之外,它还拥有一些其他机器人不具备的抽象能力。
比如脑壳里装手机???
还有远程裸眼3D交流。。。
着实是非常抽象了。
本体是怎么设计?
整个设计过程也完全公开,与以往的项目一样的硬核。他们此次在本体设计上有很多创新思考。
首先是硬件系统,抽象出了一个个可复用的核心组件。
小脑控制器Xyber-Edge;
域控制器Xyber-DCU;
智能电源管理系统Xyber-BMS;
核心关节模组;
……
通过这样模块化的组件设计,就可以像拼无人机航模一样来搭建起各种形态的人形机器人系统。
就比如拿抓完全体,这里他又挖坑了,鸽了两年不知还要再鸽几年。
还有就是在材料选择上,选择了很亲和的柔性材料。他们进行了多种尝试,包括TPU、ETPU、EVA,甚至是美妆蛋???
另外,他们全新设计了核心关节模组,并在原型机全身28个自由度没有使用任何一个并联结构。
这样既能保证惯量上移,又实现了运控算法的完全解耦。
就像这样,跟人一样很Chill的晃腿~
更为重要的突破来自运控算法层面——全面从Model-based转向学习驱动的强化学习。
通过深度强化学习与模仿学习相结合,让灵犀X2学会了像人一样的运动能力。
而且平衡能力不错,随机跑起来或者原地转圈也是轻松拿捏。
甚至它还能抓住舞蹈精髓,跟随bgm跳一曲科目三。
同时,更考验身体协调性和平衡能力的深蹲动作,灵犀X2举着小杠铃也轻松完成了。
(体重暴露了,灵犀X2重33.8KG,加上身高在一米三左右,嗯,标准身材)
此外,它还学会了人类必备技能——偷懒(doge),各种工具用起来也是得心应手。
踩滑板车、平衡车那叫一个6:
不过要想要想训练出这样一个灵活的机器人,其实并不容易。他们在过程中也遇到了各种各样神奇的体验(Bug)。
比如偶然习得了一种抽象的走路方式。。。
不想动了就直接摆烂,太像人了有没有?!
又或者闹一波情绪,经鉴定该孩子为情绪暴躁型。
目前灵犀X2还在持续进化运动能力中,按照稚晖君的说法:
通过数据驱动的算法范式,智能体能够从每秒数万次的环境交互和动作数据中,找到突破运动瓶颈的方法。
我们相信人形机器人的运动智能问题,很快会得到彻底解决。
让机器人有人味儿了
不过要让机器人真正跟人一样,除了运动智能之外,交互智能、作业智能也必不可少。
首先交互方面,要让机器人不光四肢发达,头脑也不简单,这主要得益于他们开发的一套基于Diffusion的生成式动作引擎。
此外,还为灵犀X2训练了定制的多模态交互大模型——硅光动语,以至于灵犀X2被称为“第一台真正具备复杂交互能力的灵动机器人”。
在此基础上,通过边缘侧大脑和端到端模型架构,以及一系列工程优化,灵犀X2具备了毫秒级交互能力。
日常坐下来聊聊天(用了稚晖君本人的声音训练):
最有意思的是,当问灵犀X2“刚刚提的问有多少是预先写好的”,它骄傲回答道:
完全随机。
与此同时,除了语音和视觉,灵犀X2所使用的模型还集成了动作模态,使它被赋予了生命感。
除了开头提到的呼吸韵律,它还有自己的好奇心以及肢体语言:
当然,情绪价值拉满的同时,灵犀X2还具备了一定的生产能力。
据稚晖君介绍,过去一年里,他们初步找到了一条通往泛化作业智能的路径,而灵犀X2则是集大成者。
结合已开源的数据集和框架,灵犀X2目前已具备简单任务的零样本泛化能力。
像前段时间Figure展现出来的多机协作,灵犀X2在某些特定任务中也能实现。
而按照规划,最终灵犀X2能够实现作业领域的“机器人吉祥三保”——保安、保姆以及保洁。
One More Thing
同一天,稚晖君旗下的智元机器人和上海国有资本投资有限公司达成战略合作。
目标嘛,主要是想在上海打造全球领先的智能机器人产业集群。
(上海首座人形机器人量产工厂由智元机器人打造)
OPPO Reno12 Pro发布:安卓首发实况照片 3399元起
快科技5月23日消息,今天下午,OPPOReno12Pro正式登场,起售价是3399元。在安卓阵营,OPPOReno12Pro首次带来了实况照片功能,而且这是业内首个支持AI人像算法的实况照片。站长网2024-05-24 10:42:480000Duck AI推多模式计算机交互数据收集器 DuckTrack:可收集鼠标、键盘、屏幕等数据
划重点:1.🎯DuckTrack:多模式数据记录,包括鼠标、键盘、屏幕视频和音频。2.🌐社区数据收集倡议:开源项目邀请贡献者参与多样化计算机交互数据收集。3.🛑局限性:无法模拟双击或三击,不支持触控板手势,但开发者积极改进中。站长网2023-11-30 16:37:520001宋PLUS DM-i,21.88万元,NEDC综合油耗1.1L/100km
在插电混动销量榜上销量持续不错的宋PLUSDM-i,这次就以2021款DM-i100KM四驱旗舰PLUS5G版,这款是插电混动,属于紧凑型SUV,接下来就带大家具体看一下这款车。这款正面是大的进气格栅,并向外扩张趋势,边缘银色镀铬装饰,银色镀铬上有车标和LOGO,银色镀铬两侧链接着大灯,使用LED光源。站长网2023-05-25 05:21:380001行业领袖推动 AI 硬件革新,人工智能硬件领域的十大杰出人物
随着图形处理单元(GPU)短缺的持续,各公司及风险投资家正争相购买这些芯片以运行强大的AI模型。Nvidia(英伟达),一家在AI热潮中处于领先地位的芯片巨头,宣布计划将驱动AI革命的GPU产量增加三倍。其他硬件初创公司也在争相开发AI处理器。0000GPT-4完成正确率仅6%,北大等提出首个“多轮、多模态”PPT任务完成基准PPTC
【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白,研究人员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和编辑PPT文档的能力。站长网2023-11-08 15:09:400000