纽约大学和Meta研究人员推出Dobb-E:家庭机器人操作学习的开源通用框架
**划重点:**
1. 🚀 Dobb-E是一款高度适应性的系统,能够从用户演示中学习和适应,成功率达到81%。
2. 🏡 通过利用iPhone功能,研究团队构建了一个独特的家庭和第一人称机器人交互数据集,突显其在真实环境中的高效性。
3. 💡 Dobb-E的成功归功于简单而强大的方法,包括行为克隆和用于动作预测的两层神经网络。
纽约大学和Meta的研究团队最近推出了一款名为Dobb-E的开源机器人学习框架,旨在解决家庭环境中机器人操作学习的挑战。这一高度适应性的系统通过从用户演示中学习和适应,取得了显著的成功,其在陌生家庭环境中的成功率达到了81%。
研究团队强调了他们在家庭和第一人称机器人交互方面构建的独特数据集。通过充分利用iPhone的功能,该数据集提供了高质量的动作和稀有深度信息。相比于现有的自动化操作集中的表示模型,研究团队强调了面向通用表示的领域内预训练的重要性。为了进一步改进他们的研究,他们建议通过非机器人家庭视频的领域外信息来扩充他们的数据集。

研究团队提到了在创建全面的家庭助手方面的挑战,倡导从受控环境转向真实家庭。为了实现效率、安全和用户舒适度,他们引入了Dobb-E作为体现这些原则的框架。Dobb-E利用大规模数据和现代机器学习实现效率,利用人类演示确保安全,还使用人体工学工具提高用户舒适度。该框架集成了围绕Hello Robot Stretch的硬件、模型和算法。他们还讨论了纽约家庭数据集,该数据集包含来自22个家庭的多样化演示,以及用于视觉模型的自监督学习技术。
研究采用了行为克隆框架,这是模仿学习的一个子集,用于训练Dobb-E模仿人类或专业代理的行为。通过设计的硬件设置,演示可以无缝收集并传输到机器人实体,利用多样化的家庭数据,包括iPhone测距。基础模型在这些数据上进行了预训练。在实际家庭中对训练过的模型进行测试,包括视觉表示、所需演示、深度感知、演示者专业知识以及系统中参数化策略的必要性的消融实验。
Dobb-E是一款在各种家庭环境中测试的经济高效且多功能的机器人操作系统,成功率令人印象深刻达到81%。该系统的软件堆栈、模型、数据和硬件设计由Dobb-E团队慷慨地开源,以推动家庭机器人研究的发展,并促进机器人管家的广泛应用。Dobb-E的成功归功于其简单而强大的方法,包括行为克隆和用于动作预测的两层神经网络。实验还为照明条件和阴影影响任务执行的挑战提供了见解。
Dobb·E具有以下显著特色和功能:
1.109项任务覆盖: Dobb·E能够学习并执行109项家庭任务,使其具有广泛的应用领域。
2. 纽约市家庭数据集(HoNY): 通过Stick工具,Dobb·E构建了Homes of New York(HoNY)数据集,包含22个不同纽约城家庭的13小时交互数据。数据集中包括RGB和深度视频,以及6D握爪姿势和握爪张开角度的完整动作注释。
3. Stick工具: 为了解决家庭机器人领域中收集演示的难题,Dobb·E开发了Stick工具。这是一个使用25美元的Reacher-grabber stick、3D打印零件和iPhone构建的演示收集工具。
4. Home Pretrained Representations(HPR)模型: HPR是在HoNY数据集上预训练的模型,用于初始化在新环境中执行新任务的机器人策略。它采用了ResNet-34模型,使用MoCo-v3自监督学习目标进行训练。
5. 快速学习: Dobb·E声称在20分钟内学会新任务,且在新环境中的任务表现具有81%的平均成功率。
项目网址:https://dobb-e.com/
论文网址:https://arxiv.org/abs/2311.16098
开源项目Open Interpreter:让AI在操作系统中自我复制
近日,一篇关于AI在操作系统中复制自己的文章引起了广泛关注。通过开源项目OpenInterpreter,AI实现了在操作系统级别启动自身副本的雏形。这一创新基于多模态大模型,通过截图分析屏幕内容,生成操作计划,并调用系统接口执行任务。这不仅是对任务执行能力的拓展,更是AI自我复制的一次重要尝试。项目地址:https://top.aibase.com/tool/open-interpreter站长网2024-01-16 14:31:400000联发科MediaTek天玑开发者中心上线 聚焦移动AI技术
联发科宣布,MediaTek天玑开发者中心(developer.mediatek.com)已于6月8日正式上线,聚焦移动游戏与移动AI技术的开发者资源。站长网2023-06-09 20:57:090000Meta发布AI音频模型Audiobox:通过语音和自然语言提示生成音频
划重点:🔊Audiobox是Meta推出的新一代音频生成研究模型,结合语音输入和自然语言文本提示,可轻松创建定制音频。🔊作为Voicebox的继任者,Audiobox进一步推动音频生成领域,统一了语音、音效和音景的生成和编辑能力。🔊为了推动领域的进步并确保负责任的研究,Meta将向研究人员和学术机构提供资金,用于Audiobox的安全和责任研究。站长网2023-12-01 10:25:170000单月涨粉300万,短剧“带飞”剧情号
剧情号达人正在靠短剧疯狂吸粉。新榜编辑部观察到,随着爽文式小程序短剧的爆红,越来越多剧情号达人玩起“短剧梗”,用“穿越”到短剧中的人物视角,还原普通人对离谱剧情的反应,把荒诞与现实的碰撞拍成了段子。比如,“七颗猩猩”近期更新了12集《重生之我在爽剧当演员》系列视频,演绎了保姆、助理等短剧配角的心理活动,其中6条视频获赞超百万。站长网2024-03-25 19:12:190000小米MIX Flip外观公布 将于7月19日发布
今天上午,小米公司终于揭开了其首款小折叠屏手机——小米MIXFlip的神秘面纱,并宣布这款手机将在7月19日与大家见面。随着发布日期的公布,小米也展示了新机的外观设计,其中最引人注目的便是其超大尺寸的副屏,据悉这块副屏大小约为4英寸,是迄今为止小折叠手机中最大的外屏。站长网2024-07-17 10:58:130000