稚晖君开源百万机器人真机数据集
年末大礼包,稚晖君他又双叒来开源了!
百万真机数据集开源项目AgiBot World,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。
该项目由稚晖君具身智能创业项目智元机器人,携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。
GitHub和抱抱脸上已经可以自取了(本文文末附直通车)~
说起来,此前在该领域在全球内,不是没有玩家做过大规模的数据集:
比如谷歌DeepMind曾构建过Open X-Embodiment数据集,数据整合自22种不同本体的机器人。
但其中大部分数据缺乏统一标准化的采集流程,且许多用于数据采集的机器人构型已经过时,数据质量格式参差不齐——这就可能在机器人策略学习过程中带来副作用。
△谷歌DeepMind的Open X-Embodiment
又比如斯坦福、UC伯克利、谷歌等构建的DROID数据集,涵盖了相对丰富的场景与技能,虽然尽可能实现规范化的数据采集流程。
但作者团队自己在后续研究中指出,DROID存在大量低质量数据,反而让机器人越学越迷茫。
2024年以来,具身智能备受瞩目,行业玩家纷纷涌现,很多初创公司都基于自采集的大规模高质量双臂机器人数据训练的模型展现出了整理、分拣、洗衣等执行复杂动作的能力。
这虽然进一步印证了高质量数据在当前具身智能领域研究阶段的重要性,但这类数据集一般仅作自用。
据介绍,相比于Open X-Embodiment数据集,此次开源的AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。
一起来看看,这个数据集包含了些什么——
日常生活中多样化任务,可多机器人协作
官方资料显示,AgiBot World数据集收录了80余种日常生活中的多样化技能。
从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
下面举几个栗子~
毫米级精细控制。
演示场景为插内存条。需要如神经纤维般灵敏的末端触觉传感器助力机器人精准对接,稍有不慎可能导致设备损坏。
繁琐长流程家务整理。
该任务下演示场景1为整理洗碗机。
画面中,勺筷碗盘层层堆叠在洗碗池里。在这条数据中,机器人将杂乱的餐具逐一整理到洗碗机相应卡槽中。
该任务下演示场景2为挂式熨烫衣物。
机器人通过双手协作,一只手抓住衬衫的一角,另一只手控制挂烫机与衣物的距离,熨烫衣物褶皱。
搭建物体搬运。
搬运大件物体这项任务,目前对单机器人来说是个老大难。
数据集中采集的是双机器人协作,分担重量的同时,通过实时调整位置与角度,确保物体搬运过程中的稳定安全。
尽可能覆盖日常生产、生活全域场景
团队介绍,AgiBot World是从智元机器人自建的大规模数据采集工厂与应用实验基地中采集的,采集空间总面积超过4000平方米,包含3000多种真实物品。
为了尽可能覆盖机器人在生产、生活中的典型应用需求,为机器人提供高度真实的生产生活环境,采集环境包含超过100种真实场景、3000多种物品。
其中,80%的任务为长程任务,时长集中在60s-150s之间,且涵盖多个原子技能,是DROID和OpenX-Embodiment工作的5倍。
值得一提的是,按照日常生活真实需求,团队主要复刻了5个核心场景,分别是:
家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)。
主打的就是通过多场景的高度还原与任务设计,为机器人研发和测试构建一个能够实现具身智能的必要条件。
首先,家居场景。
主要再现真实住宅布局,包括卧室、客厅、厨房、卫生间等核心空间。有助于训练机器人家务清洁、物品整理和厨房任务等。
在客厅,机器人可以精确控制机械臂抓取花材,精确定位花瓶的插孔,将花朵按计划插入适当位置。
也可以使用清扫工具对地面进行全面清洁,包括碎屑、灰尘和液体等。
还可以清理家居表面的灰尘和污垢,精确控制掸子或软布进行擦拭,避免划伤表面。
让我们把视线从客厅转换到厨房。
在厨房,机器人可以根据食材种类和沙拉配方,完成切割、混合和装盘操作,也可以控制清洁工具对瓶内外进行刷洗,去除污渍。
如果再把场景切换到卫生间,机器人可以精准控制机械臂使用刷子清洁卫生间马桶。
其次,餐饮场景。
主要实现智能服务体验,模拟前厅、后厨与用餐区域,包括点餐台、备餐区、餐桌等。有助于训练机器人实现餐厅服务(点餐、上菜、清理餐桌)、食材传递、后厨协作等。
再者,工业场景。
主要模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等。有助于训练机器人实现物料分拣、包装打包、物流搬运等。
在工厂,机器人在流水线上利用机械臂精准控制将物品放入指定的包装盒中,实现物品自动打包。
还有商超场景。
这一场景下,主要高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域。有助于训练机器人模拟物品上架、货物盘点、顾客引导、无人结算等。
在超市,机器人可以精准控制扫码枪对待结算物品进行扫描和帮助客人装袋。
采集本体过硬 严控数据质量
上面所提到的AgiBot World的所有数据,都是由下面这款机器人采集的:
它具有以下几个特点:
360°感知:8个摄像头环绕式布局,实时全方位感知周围环境的动态变化。
灵巧操作:可配备具有6个主动自由度的灵巧手,保障动作精准且灵活,完成多种复杂操作。
末端精细感知:标配末端六维力传感器,并可配备高精度视触觉传感器,能够感知力的微小变化,做到“拿捏有度”。
高自由度:全身最高32个自由度,应对洗衣、做饭、分拣、搬运等复杂任务。
此外,由于AgiBot World的超大规模真实数据特性,团队通过专业培训、多级质量把控、全程人工在环,以确保严格精细化控制数据质量。
在任务设计环节,AgiBot World从设计初稿到设计迭代流程,均邀请了学术、工业、消费者来进行多视角任务把关。
在数据采集环节,由管理体系下的专业管理图那对来保障采集员培训和采集质量把控。
在审核标注环节,首先会经过端云两侧,严格筛选采集的数据,自动剔除不符合要求的数据。
此外专业审核员会人工对全量数据进行逐帧审核,确保每一个动作都符合任务标准,并对关键帧和数据特性进行多维度标注。
在算法验证环节,通过人工审核的数据,还会由AgiBot World团队进一步通过算法进行验证。
对于未能通过验证的数据,会重新设计任务进行数据补采,确保数据可用性。
One More Thing
这次开源AgiBot World数据集,是稚晖君在三个月内的第三次开源举动。
第一次是9月底,开源了专为具身智能打造的轻量化、高性能通信框架AimRT。
上一次是10月24日(没错就是踩点1024),智元人形机器人灵犀X1全套资料全球开源,包括设计图纸和代码。
至于下一步——
量子位得来的消息是,开源,开源,还是开源(莫不是稚晖君想做源神)。
内幕消息一并放在这里,大家就等着他慢慢慢慢慢慢填坑吧,真的(真诚脸.jpg)。
百万真机全量数据将陆续开源;
千万仿真数据同步推送,支持更泛化和更通用的大模型训练;
发布具身基座大模型,支持模型微调,赋能千行百业;
发布全套工具链,实现采集、训练和评测完美闭环;
举办一系列AgiBot World Challenge。
GitHub链接:
https://github.com/OpenDriveLab/AgiBot-World
抱抱脸链接:
https://huggingface.co/agibot-world
项目主页:
https://agibot-world.com/
—完—
微信支付1000、2000元提现免费券回归:免手续费、可多次使用
快科技7月2日消息,由于每个身份证终身只有1000元的微信免费提现额度,因此超出后就要按提现金额的0.1%收取服务费,单笔最低0.1元/笔。同时,官方提供通过兑换提现免费券的方式获得免费额度,包括支付有优惠、收款有礼积分兑换两种。日前,微信支付有优惠的1000元、2000元微信提现免费券回归,前者需要10金币、后者需要20金币兑换。站长网2023-07-03 18:21:270001Midjourney新网站上线 新增灯光模式、灯箱功能等
Midjoureny经过一番努力,终于上线了全新版本的网站,使用体验得到了极大的提升。首先,最令人瞩目的改进是图片搜索速度的大幅提升,从网站显示到图片生成都将变得迅捷高效。一旦一切正常运行,这个新网站将很快取代现有的网站。体验地址:https://beta.midjourney.com/home这次更新的亮点包括:站长网2023-10-26 14:41:360000谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位
英国政府最近宣布,谷歌旗下人工智能(AI)子公司DeepMind的首席执行官兼创始人之一德米斯·哈萨比斯因其在人工智能领域的杰出贡献而被授予爵士爵位。此举反映了英国对人工智能发展的重视,并表彰了哈萨比斯在推动人工智能技术进步方面所做的努力。0001Phi-3 WebGPU:允许用户直接在浏览器本地运行Phi-3模型
Phi-3WebGPU是一款由Xenova提供的AI模型,它在HuggingFaceSpace中推出,允许用户直接在浏览器中本地运行AI模型。这一创新工具结合了Transformers.js和onnxruntime-web,为用户提供了一个私密且高效的AI体验。体验地址:https://top.aibase.com/tool/phi-3-webgpuPhi-3WebGPU的主要特点站长网2024-05-11 18:13:400000依一带你探索大语言模型的智能涌现能力
导读:大型语言模型是一个特别有趣的案例研究,因为它们已经显示出非常明显的智能涌现现象。LLM是非常大的transformer神经网络,通常跨越数千亿个参数,在少量的文本数据上进行训练,可用于范围广泛的任务,包括文本生成、问答、摘要等。目前,判别LLM是否已经具有智能涌现能力,我们首先就如何界定智能涌现并给出可重复涌现实例达到共识。站长网2023-05-24 08:40:360000