登录

国产具身大模型首闯汽车工厂!终结工业机器人 “专机专用” 时代

2025-06-16 10:35 来源:中国信息化周报

近日,东风柳州汽车有限公司(以下简称“东风柳汽”)与智平方(深圳)科技有限公司(以下简称“智平方”)签署战略合作协议,探索具身大模型在汽车制造全方位场景的首次深度应用。

搭载智平方全域全身VLA(GOVLA)大模型的通用智能机器人AlphaBot 2(爱宝)将进驻东风柳汽汽车工厂,在柔性装配、油液加注、安全巡检等多个场景执行智能化作业,覆盖质量检测、装配作业、物流转运、工厂运维等关键制造环节。这是通用智能机器人探索“进厂打工”的最新一例,标志着国产具身大模型首次获得汽车制造全场景验证。

VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场景自主决策的跨越至关重要。但在实际应用过程中,VLA模型在泛化能力、精确性、多模态信息融合上仍存挑战。

VLA仅是具身智能的起点

具身智能旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉-语言-动作(VLA)模型作为其中的关键技术,近年来备受关注。

例如,在机器人任务中,VLA模型可以根据看到的场景(视觉)和接收到的任务指令(语言)来决定如何移动和操作(行动),其末端执行器或特定参考点在空间中所经过的路径便是运动轨迹,通过VLA模型对多模态信息的处理和分析,能够不断优化和调整运动轨迹,使机器人能够高效、准确、安全地完成各种任务。

2023年8月,谷歌DeepMind推出机器人模型Robotics Transformer 2(RT-2),是全球第一个控制机器人的视觉-语言-动作大模型(Vision Language Action Models,VLAs),10月发布RT-X机器人大模型。

如今,VLA模型已广泛扩散至辅助驾驶领域。3月18日,理想发布了下一代自动驾驶架构MindVLA,成功整合了空间智能、语言智能和行为智能;随后的4月,小鹏披露其正在研发的720亿参数自动驾驶大模型——小鹏世界基座模型,该模型以大语言模型为骨干网络,通过海量优质驾驶数据训练而成,具备视觉理解、链式推理和动作生成三大核心能力;此外,吉利、奇瑞等车企也在积极研发布局VLA大模型。

而在6月6日的2025智源大会上,银河通用机器人Galbot G1也亮相现场,机器人在语音指令下自主、精确的从现场搭建的货架上抓取对应物品,全程无遥操、自主推理、且事先无采集场景数据。此次Galbot G1展示的货架精准取货,背后的技术正是银河通用团队最新研发的端到端具身大模型Grocery VLA。

对于VLA的泛化性,银河通用创始人兼CTO(首席技术官)王鹤认为,“VLA是当下具身研究的热点,但VLA只是一个起点,要真正做到人类级别的具身智能,只能是不断融合新的模态。VLA面对的很多任务,在工业、商业、服务等方面都有非常广泛的应用,如果把这样的VLA做好,将见证具身智能第一次真正高峰的到来。”

中关村人才协会RWA工作委员会常务副主任及秘书长吴高斌向《中国信息化周报》记者表示:“尽管VLA模型在整合视觉信息、语言指令与行动决策方面表现出色,但在实际应用中仍面临环多方面挑战,真实生产环境中存在诸多不确定性因素,如光照变化、噪声干扰等,这些因素可能影响VLA模型的准确性和稳定性。虽然VLA模型在处理简单任务时表现出色,但在面对复杂、长程任务时,如何有效规划行动路径、避免冲突等仍是需要解决的问题。如何提高模型的泛化能力,减少对特定环境依赖,是未来研究重点。”

天使投资人、资深人工智能专家郭涛接受《中国信息化周报》记者采访时表示:“VLA模型在工业场景的深化应用仍面临多重技术挑战。其一,多模态信息融合精度亟待提升,工业环境中的光照变化、部件遮挡等因素易造成视觉感知误差,需进一步优化跨模态对齐算法;其二,长程任务规划系统的鲁棒性不足,面对动态产线干扰时,语言指令解析与动作执行的容错机制仍需完善;其三,数据获取与处理存在瓶颈,汽车制造领域数据样本稀缺且标注成本高昂,如何通过小样本学习技术实现模型对不同车型产线的快速适配,成为制约技术规模化应用的关键难题。” 

机器人打工首获汽车全场景验证

近年来,人形机器人的发布会总少不了“太空步”“后空翻”等表演。而在东风柳汽的实际应用场景中,智平方爱宝展现出全方位的智能化作业能力。

例如,在上下料场景,爱宝能够精准完成从料车搬箱、姿态调整到定位放置的全流程作业,同步完成取件、灭灯及转身放置,显著提升搬运效率和操作灵活性;在拖拽料车场景,基于全域环境感知技术,机器人可实时分析产线运行状态,自主规划最优路径并安全介入,实现空料车的精准拖拽;在车门质检与贴保护布环节,GOVLA大模型协调视觉、决策与动作系统,让爱宝能够自主执行车门识别、车门检测、漆面扫描、抓取保护布、保护布贴合等多步骤复杂任务,确保长程任务稳定操作。

这种能力的背后,是智平方大模型的革新。作为国内最早提出并系统性研发端到端VLA技术范式的企业,智平方于今年4月在原有具身大模型AI2R Brain基础上正式发布全球首个自主研发的GOVLA大模型。该具身大模型具备从桌面到开放环境的适应能力、从单臂到全身协同的操作能力,以及从简单任务到长程复杂任务的推理能力。

“东风柳汽本次与智平方的合作,不仅体现了技术从实验室到工业场景的落地能力,更通过真实生产环境的数据反馈,推动了具身智能技术的快速迭代。对于汽车制造业而言,智能化升级是提升效率、降低成本、增强竞争力的关键路径,而此次合作正是这一趋势的生动实践。”北京市社会科学院副研究员王鹏向《中国信息化周报》记者说道。

郭涛认为,“这项创新应用开创了具身大模型在汽车制造全流程落地的先河,彻底打破传统工业机器人‘专机专用’的技术桎梏。相较以往,本次技术升级实现三大维度突破:在任务执行层面,凭借34+自由度全身协同控制系统,机器人可灵活切换装配、检测、巡检等跨工序作业,显著提升生产柔性;环境适应方面,通过360°全域自主导航与多车型混线生产适配技术,有效解决传统机器人部署周期长、产线调整效率低的行业痛点;决策能力维度,基于GOVLA模型构建的视觉-语言-动作闭环系统,赋予机器人自主完成油液加注等复杂复合任务的能力,较传统示教编程模式大幅提升生产效率”。

近年来,机器人公司加速进入工业场景,如开普勒与全球前五大主机厂及头部物流公司展开合作,优必选在极氪汽车5G智慧工厂完成多场景多任务机器人协同实训,比亚迪通过工业人形机器人Walker S1与无人车协同作业打通产品从来料到生产的物流链路。具身智能的进化,离不开海量真实数据的聚合。通过在制造工厂的场景应用,可以为国产机器人提供最佳的“实战训练场”。

相关新闻

编辑精选