机器人ChatGPT来了,80亿参数、前OpenAI人员经数年打造
严格地说,是“拾取与放置任务”版本的ChatGPT来了。除了自然语言交流,还能像Sora一样生成视频。
有了机器人基础模型RFM-1,使用简单英语就能指导机器人完成拣选工作。
机器人 AI 公司 Covariant CEO Peter Chen坐在一个聊天机器人面前,界面和 ChatGPT 的很像。
“给我看看你面前的运送箱,” 他输入一段文本。然后出现了一段视频,一个机械臂悬在一个装有各种物品的运输箱上——里面有一双袜子、一管薯条和一个苹果。
聊天机器人可以和你讨论它看到的物品,也可以操纵它们。接着,Chen 要求它去抓一个水果,只见机械臂伸向苹果,轻轻抓住苹果后将它移到附近的另一个箱子里。
这个聊天机器人是该公司迈向“机器人 ChatGPT ”的重要一步。人们希望 AI 最终能够解决长期以来的编程难,并让它们做更多的事情。“在这一点上,说基础模型是机器人技术的未来是没有争议的。” Chen 说。今天,Covariant 正式宣布推出机器人领域的通用基础模型 RFM-1。因为整合了语言数据,Chen 用简单英语就能指导机器人完成拣选工作。
更为重要的,“基础模型”意味着 RFM-1可以接受更多数据的训练来完成更多的事情——目前都是关于仓库操作的任务,因为这就是它所接受的训练,但它的功能可以通过向其提供更多数据加以扩展。
“对于完成各种拾取和放置任务来说,现有的系统已经足够快速和灵活。” Covariant 联合创始人、机器人学习先驱 Pieter Abbeel 说,像 RFM-1这样的模型可以让机器人更流畅转向新任务,走得更远。所谓远,既包括完成任何任务,也包括接入任何具身(不排除人形机器人),为全球数十亿机器人提供动力。
野心不小的 Covariant 成立于2017年,由加州大学伯克利分校电气工程和计算机科学教授 Pieter Abbeel 和他的三位华人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 创立。Abbeel 在2016年成为 OpenAI 早期员工,就在 Chen 加入该公司一个月后。Rocky Duan 也曾担任 OpenAI 的研究科学家。后来他们离开 OpenAI,希望将 AI 从比特世界落地到真实世界,打造像人类一样通过推理来适应现实场景的机器人产品。
Covariant 核心技术是被称为“ Covariant Brain ”的机器人大脑(软件),主要部署在工业机械臂上。最初他们专注于拣选用例是因为可以创造真实价值——客户愿意掏腰包支付软件费用。不过,对于 Covariant 来说,最令人兴奋的部分是过去四年积累的大量现实世界的数据。
“完成我们正在做的事情的唯一方法是让机器人部署到世界各地真实客户现场,收集大量数据,”Abbeel 说。“这使我们能够训练一个具有独特能力的机器人基础模型。”
与 ChatGPT、谷歌 Gemini 和其他聊天机器人一样,机器人大军收集的来自真实世界的数千万条高质量多模态机器人数据(包括静态数据、动态视频、关节角度、力读数、吸盘强度等机器人操作中涉及关键数据),训练出80亿参数规模的 RFM-1,可以帮助机器人更像人类一样思考。
在真实世界中接触到各种拾取和放置物体对象,比如易变形、被高度遮挡、材质各异、不规则外形等,建立对真实物理世界的理解。
在不断变化的仓库环境中24/7全天候运行,系统也可以发现实验室的环境中难以遇到的长尾边缘案例。
我们可以将 RFM-1视为一个视频生成器(就像 Sora )。输入拾取某些物体的命令,系统会使用其训练数据(形状、颜色、大小等)来识别面前与该描述最匹配的物体。然后生成视频,预测自己试图拿起这个物体时可能发生什么,并确定最佳行动方案。
下面是一个类似图生视频功能。输入初始图像(类似图片提示),RFM-1即可生成相应的动态视频。本质上是一种模拟,以过去所有训练数据为基础。
上面两张图都是作为输入的初始图片,对应的下方动态内容是模型的输出,预测自己执行这一任务会是什么样子。
再比如,如果你想知道把一个圆柱体的物品放到传送带上会发生什么?也可以让 RFM-1生成视频,它能准确显示圆柱体翻转和滚动的样子(比 Sora 还精准),因为在此之前它已经看过很多东西被放置在不同传送带上后的状态。这些视频在仓库业务中可能没有实际用途,但它生动显示出机器人对周围世界的理解。
除了生成视频的能力,现在任何人都可以在几分钟内通过自然语言指导机器人执行特定操作。
在遇到问题时,RFM-1甚至赋予机器人求助的本领。它们会将遭遇的困难直接告诉操作人员,并根据新建议尝试完成任务。
值得注意的是,虽然 RFM-1最大亮点就是泛化能力,但泛化能力有限——“......它目前不能泛化到完全新的对象或情况。” Abbeel 表示。换句话说,如果你希望机器人拿起一颗螺丝并把它拧进去,或者剥一块生姜,这并不是一个真正有关拾取和放置问题,RFM-1暂时无能为力。目前, RFM-1也主要销售给只做某些仓库任务的公司。另外,就像ChatGPT也会有幻觉并出错,RFM-1也有不理解要求并掉落东西的时候。错误的风险与成本取决于场景,制造等领域的容错率非常低。
不过,Abbeel 相信,只要有足够的数据,有用的世界模拟将是可能的。“从现在起的5年里,我们建造的将是唯一一种任何人都会使用的模拟器。”这是一个更强大的模拟器,一个从建造之初就带有碰撞检测等元素的模拟器。所有这些东西都很难以任何方式构建到你的物理引擎中,更不用说让事物看起来像真实世界中的渲染器——“在某种意义上,我们正在走捷径。”
为了扩展 RFM-1的能力,以实现为“全球数十亿机器人”提供动力的基础模型的长期愿景,下一步是向它提供更多数据。“我们基本上已经构建了一个数据收集引擎,”Abbeel 说。“如果你愿意向我们提供不同类型的数据,我们也会收集这些数据。”
但是,这也会导致另一个局限性 —— 商业可行性。1X AI 副总裁 Eric Jang 提到过目前三种扩张机器人部署规模的路子。除了耳熟能详的传统编程方法,一种是以特斯拉、1X、Figure.ai 这些人形机器人为代表的全栈路线(既做本体硬件也研发通用系统软件),另一种就是 Covariant 这种纯软的方式——建立一个“全能的大脑”控制机器人,每台机器人的硬件供应商都会来找你,要求接入“全能大脑”的 API 。
如果你能建立一个别人无法建立的模型,就能获得丰厚的软件利润,每个人都给你他们的数据。GPT-4可能是最好的例子。但是,这种方法的缺点是涉及大量数据,你的硬件合作伙伴可能不想给你数据,他们的客户也不想给你数据。
RFM-1目前尚未部署在人形机器人上,虽然它可以学习控制训练数据中没有的类似硬件(甚至人形机器人?),但一家人形机器人公司又会基于什么样的动机愿意将数据共享给你呢?
对此,Chen 表示,“我们的宗旨是帮助他们走进现实世界。”“我认为,真的没有多少公司拥有 AI,可以让他们的机器人在生产环境中真正自主。如果他们想要强大、能够帮助他们进入现实世界的 AI,我们确实是他们的最佳选择。”
也就是说,虽然每个机器人公司都可以单独训练自己的模型,但对于任何试图实现与现实交互操作的模型来说,其性能可能远不如使用 RFM-1。
参考链接
https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/
https://spectrum.ieee.org/covariant-foundation-model
https://www.wired.com/story/quest-ai-chatbots-a-hand-arm-robots/?utm_source=twitter&utm_brand=wired&utm_medium=social&mbid=social_twitter&utm_social-type=owned
魔兽世界: 6 月 11 日开启国服删档技术测试
站长之家(ChinaZ.com)6月6日消息:在广大魔兽世界玩家的热切期盼中,官方今晨宣布了一则激动人心的消息:“巫妖王之怒”国服删档技术测试将于6月11日正式启动。为了让玩家们能够在测试期间更好地融入游戏世界,官方特地准备了国服专属的纪念宠物和成就作为奖励。站长网2024-06-06 16:15:050000AI前哨 | 对话百度肖阳:谁是中国第一搜索引擎?
凤凰网科技讯《AI前哨》5月29日消息,前几天,“百度已不是中国第一大桌面搜索引擎”话题被顶上微博热搜。根据美国研究机构Statcounter的最新统计数据,今年4月微软必应搜索国内搜索市场份额创历史新高,而百度搜索市场份额降至27.01%,排名跌到第二。00007天B站涨粉20万,“猫meme”为何风靡全网?
“猫meme”正在入侵互联网。最近,一个名为“ねこのつぶやき”(猫的自言自语)的日本UP主在B站走红,短短半个月涨粉超27万。这位UP主是一名单亲妈妈,她分享了自己来中国生活后价值观发生变化的故事,不过她并没有真人出镜,而是加入了各种好玩的猫咪表情包进行视频剪辑,做成了“猫meme”版vlog。比如在去中国的飞机上,刚出生不久的孩子猛哭两小时,这里配上双手抱头尖叫的小奶猫表情;站长网2024-03-15 15:09:250000阿里巴巴:减持小鹏汽车 相信小鹏汽车前景
快科技12月15日消息,阿里巴巴集团宣布出售其持有的部分小鹏汽车的股权,持股由10.2%降至7.5%。据媒体报道,阿里巴巴集团相关负责人表示,我们根据自身的资本管理目标,出售了所持的部分小鹏股份。”阿里方面还表示,小鹏是中国电动汽车领域的领军者之一,我们已与其建立了战略合作关系。我们相信小鹏的前景,期待与该公司的持续合作。”0000科学家表示:利用AI扫描可能提早检测出柏金森病
本文概要:1.一项研究发现,使用AI分析眼部OCT扫描数据,可以检测出柏金森病患者与非患者眼部细胞层厚度的差异。这可能能在出现症状前7年检测出疾病。2.研究人员相信眼部扫描可以提早检测疾病,并希望将来可以常规进行。OCT扫描非侵入性,已广泛用于眼科,可显示细胞层信息。3.研究发表在《神经学》杂志上。由于OCT扫描非侵入性,可望在NHS中推广应用。站长网2023-08-23 16:26:540000