为机器人装“大脑” 谷歌发布RT-2大模型
大语言模型不仅能让应用变得更智能,还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后,专用于机器人的RT-2大模型于近期面世,它能让机器人学习互联网上的文本和图像,并具备逻辑推理能力。
该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下,RT-2也通过学习让它根据指令完成任务。
谷歌DeepMind机器人技术主管Vincent举例称,如果让以前的机器人丢垃圾,必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法,不必逐一特训不同的场景了。
AI的发展让机器人的“大脑”实现了物种进化般的迭代,另一面是,机器人失控的风险也随之增加。
RT-2大模型实现机器人自主学习
ChatGPT的火爆,让世界见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌脑洞大开,专门给机器人造了个大模型,让机器人拥有了自主学习能力。
不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer2(简称RT-2)的新型视觉-语言-动作(VLA)模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。
谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。
为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。
视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。
比如,命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2 1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。
不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。
即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。
DeepMind机器人技术主管Vincent以“扔垃圾”这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2能通过其视觉语言培训数据理解这个概念,并完成任务。
RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。
机器人加速进化再触AI安全底线
事实上,给机器人装上大脑这件事,谷歌并不是第一次尝试了。就在去年12月,谷歌发布了RT-1大模型,它可以标记机器人输入和输出的动作,在运行时实现高效推理,并使实时控制成为可能。
RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,由13台机器人在17个月内收集而成。也就是说,RT-1大模型可以让单一机器人,学习其他机器人在过去积攒的经验,从而具备相应的能力。
RT-1大模型论文
当时,谷歌让搭载RT-1的机器人进行一系列复杂操作,包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称,RT-1以97%的成功率执行了700多个训练指令,并且可以泛化到新的任务。
但对于没有具体学习过的场景,RT-1还是很难自主依据推理完成任务。根据测试,它在不熟悉的场景下,操作的准确率只有32%。
如果说当时的RT-1还是个“教什么学什么”的小学生,RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中,RT-2的性能表现几乎翻了一番,从RT-1的32%提高到了62%,而此时距离RT-1的发布时间仅仅过去了半年多。
谷歌DeepMind机器人技术主管Vincent解释,RT-2建立在RT-1模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为,即使是从未接受过训练的任务。“简而言之,RT-2的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。”
得益于大模型的快速进步,机器人产业迎来了质变,按照谷歌的迭代速度,或许明年就能看到更强大的RT-3。
研究机器人的不止谷歌,特斯拉也对机器人兴趣浓厚。今年5月,特斯拉发布了一个视频,5个人形机器人在工厂中直立行走,它们装备了很多传感器,能够探测周围环境,执行分拣物品等任务。特斯拉的机器人也在走AI路线,这家电动汽车厂商的CEO马斯克称,特斯拉正在尝试打通电动汽车的辅助驾驶软件(FSD)系统和人形机器人的底层模块,让机器人智商在线。
而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型,机器人的能力预计又将大幅进步。
但越来越聪明的机器人,也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论,金属外壳的人形机器人直接具备了物理杀伤力。
有人在社交媒体发问,“人类是否亲手打开了一个潘多拉魔盒?”
如何规训机器人,仍然回到了大模型安全性这一老问题上,但这个问题至今还未在全球的研究与应用领域达成共识。
技术另一面的未知危机仍未解除,装上AI大脑的机器人出现了,你会期待还是警惕?
魅族申请“魅GPT”“FlymeGPT”商标
天眼查App显示,近日,珠海市魅族科技有限公司申请“魅GPT”“FlymeGPT”商标,国际分类为科学仪器,当前商标状态均为申请中。该公司成立于2003年3月,法定代表人为沈子瑜,注册资本约3.81亿人民币,经营范围含移动终端设备制造、软件开发、移动终端设备销售、电子产品销售、人工智能基础资源与技术平台、家用电器研发等。站长网2023-07-08 16:23:080000阿里钉钉与华为达成合作 启动“钉钉鸿蒙版”开发
11月23日消息,钉钉与华为举办鸿蒙原生应用开发启动仪式,双方将在产业创新、技术应用、商业发展等领域全面合作,并正式启动“钉钉鸿蒙版”的开发。鸿蒙最新数据显示,截至今年8月份,鸿蒙生态设备数已超过7亿,开发者突破220万人。目前,钉钉上有超过6亿用户、2300万企业组织。钉钉自2023年4月以来,通过接入大模型已完成17个产品线、60多个场景的AI改造,目前有50多万家企业在使用钉钉AI。站长网2023-11-23 16:01:070000优酷换logo了!采用蓝橙配色方案
站长之家(ChinaZ.com)1月16日消息:线视频平台优酷近日对其Logo进行了更新。与之前大家熟悉的“红蓝”配色不同,新Logo采用了“蓝橙”主题色。这次改动也引起了广大网友和业界的关注。值得注意的是,这并不是优酷首次对其Logo进行更新。站长网2024-01-16 16:17:010000ChatGPT或能预测股价走势 金融人士:我们的时间都是AI借给我们的
最新消息称,ChatGPT在金融领域的应用又有了新的突破。来自佛罗里达大学的金融学教授AlejandroLopez-Lira表示,他们利用ChatGPT来预测股市涨跌,并通过实验验证了ChatGPT对于新闻影响及股市回报的预测能力比随机预测要好得多。站长网2023-04-13 10:19:340000腾讯视频回应APP崩了:出现技术问题 已逐步恢复
昨日晚间,腾讯视频出现了大规模的网络故障,许多网友纷纷反馈无法加载首页内容,VIP用户也无法观看会员视频等。针对这一突发情况,腾讯视频官方作出了回应并致以歉意。腾讯视频表示,目前出现的是短暂的技术问题,他们正在紧急修复中,各项功能正在逐步恢复。对于给用户带来的不便,他们深感歉意并感谢用户的耐心等待。站长网2023-12-04 08:34:050000