登录

通用机器人里程碑?谷歌展示全球首个多任务AI智能体 已学会套圈、搭积木、抓水果……

2023-06-26 10:35 来源:科创板日报

科创板日报消息,人工智能和机器人,总是不可避免地产生交集:前有人形机器人Optimus在特斯拉AI日横空出世,后有OpenAI投资挪威人形机器人公司1X。如今,谷歌旗下的AI团队DeepMind也放出大招,当地时间6月20日,DeepMind展示了用于机器人的AI智能体“RoboCat”。

RoboCat可操控机械臂完成各种各样的任务

谷歌称之为机器人智能体(robotic agent),本质上是由AI赋能的软件程序,相当于机器人的“大脑”,由其加持的机器人与传统机器人不同之处在于,RoboCat机器人更具“通用性”,并可实现自我改进、自我提升。

DeepMind称,RoboCat是全球第一个可以解决和适应多种任务的机器人AI智能体,并且它可以在各类真实的机器人产品上完成这些任务,“RoboCat的快速学习能力减少了对人类监督训练的需求,是朝着创建通用机器人迈出的重要一步。”

▌两大硬核科技支撑通用机器人研发

(1)自生成训练数据

据DeepMind的介绍,只需要通过100次左右的演示,RoboCat就可以学会操控机械臂来完成各式各样的任务,然后通过自生成的数据来进行迭代改进。要知道,构建通用机器人的进展速度较慢,部分原因是收集真实世界的训练数据需要时间。

在DeepMind演示视频中,RoboCat可已经以通过自主学习操控机械臂,完成“套圈”“搭积木”“抓水果”等任务。这些任务看似简单,但考验了机械臂操作的精准度、理解力以及对于形状匹配难题的解决能力。目前RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。

值得注意的是,不论是它操控的机械臂还是它要完成的任务,RoboCat之前从来没见过。

这种“通用性学习能力”对于加快机器人领域的研究有重要意义。DeepMind认为,RoboCat独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。

(2)基于多模态模型

RoboCat用到的关键技术之一,是一种多模态模型Gato,而Gato在西班牙语里意为“猫”(cat),这也是“RoboCat”这一命名的由来之一。

Gato模型可以在模拟环境和物理环境中处理语言、图像和动作,研究人员将Gato的架构与一个大型训练数据集进行了结合,这个数据集包含100-1000个各种机械臂完成任务的演示。

基于原始数据集和新训练产生的数据,RoboCat的数据集将包含数百万次的训练轨迹数据。它学习的新任务越多,它就能更好地学习和解决额外的新任务。

RoboCat的训练过程图解

模拟演示RoboCat的训练过程

依托于多模态模型,RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案。

▌科技巨头同台比拼 中国产业链凸显性价比优势

其实,在生成式AI风靡全球之前,特斯拉、亚马逊、英伟达、腾讯等众多科技巨头已经划拨了专门团队进行机器人研发。该阶段,机器人智能化水平不足,难以商业化。

如今,AI加持的机器人化身具身智能,再次焕发生机。一方面,AI大模型的出现以及多模态技术的迭代,使得机器人具备自然语言交互与自动化决策能力,大大提升其智能化水平、增强用户体验感;另一方面,工程师也可以通过AI对其进行肢体的模拟训练,大大降低了其开发成本。

谷歌RoboCat只是AI赋能机器人的优秀案例之一。仅将视线聚焦在今年:2023年年初,谷歌推出视觉语言模型PaLM-E,并运用到工业机器人上;4月份阿里巴巴将千问大模型接入工业机器人;5月,特斯拉人形机器人Optimus展示了精准的控制、感知能力,同月英伟达发布全新自主移动机器人平台。

再结合OpenAI投资挪威人形机器人公司1X,以及三花智控与绿的谐波在墨西哥合资设立谐波减速器公司,近期多家机构认为AI+机器人已经到达产业爆发前夜。

招商证券分析师胡小禹预计Optimus在未来2-3年内会进入量产阶段。如果以100亿台空间以及2万美元单机售价测算,市场空间200万亿美元。另据高盛的研究报告,人形机器人市场规模有望在2035年超过1500亿美元。

中银证券分析师陶波称,国产机器人产业链有望在自动化、智能化的浪潮中,凭借产品性价比优势获得广阔的发展空间。

▌发展初期硬件先行 运动模块价值量最高

中信证券分析师袁健聪表示,OpenAI、腾讯、小米、谷歌、英伟达等科技企业持续加注机器人领域,推动机器人技术创新与降本量产进程加快,机器人目前处发展初期,存在“硬件先行”规律。

机器人硬件主要包括控制、感知、运动、动力、散热和总装五大模块,运动模块价值量最高。根据Ofweek机器人网,工业机器人运动模块约占整体成本的47%。

以人形机器人为代表的AI机器人相较工业机器人结构更为复杂,运动模块的成本相应更高。以特斯拉的人形机器人Optimus为例,其运动模块和部分感知模块被整合为一体化关节,这部分成本占比高达整机的50%。基于此,广发证券分析师代川及华泰证券分析师倪正洋均看好一体化关节投资价值。

相关新闻

编辑精选