登录

斩获全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球

2025-09-09 10:16 来源:优必选

近日,优必选自主研发的人形机器人Walker最强大脑——百亿参数基座的多模态大模型:优必选Thinker,在机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌等发起与提出的MS COCO Detection Challenge、RoboVQA与Egoplan-bench2中,针对二十一个场景、四大类型的任务规划等命题,优必选一举斩获四项全球榜单第一。榜单吸引了来自英伟达、北京智源研究院、上海AI Lab等全球顶尖团队,角逐激烈。优必选这次取得的成绩不仅体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先性,也标志着人形机器人Walker S系列的“最强大脑”实现关键进化。

多模态感知+强推理规划赋能工业场景规模化应用

在智能化浪潮席卷全球的当下,人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令执行任务,难以应对高度动态、多变的现实场景。而本次三大基准测试的核心,正是针对人形机器人在复杂环境中的多模态感知和推理规划能力进行系统化验证。

MS COCO detection challenge由微软发起,是计算机视觉领域的权威评测基准之一,在全球学术界与工业界享有极高认可度,常年被众多顶尖论文与技术报告用作感知算法性能的衡量标准。

RoboVQA和Egoplan-bench2则分别由谷歌DeepMind和香港大学提出,致力于构建机器人第一视角推理与任务规划的公开标准基准测试,重点关注多模态、长周期任务规划能力。参与排名的模型包括北京智源、英伟达ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。

优必选Thinker在MS COCO detection challenge - Segmentation Mask中排名第一

优必选Thinker在MS COCO detection challenge - Bounding Box排名中并列第一

优必选Thinker在RoboVQA与Egoplan-bench2中排名第一

这一成绩的背后,是优必选自主研发的Thinker架构与训练框架所提供的技术支撑,通过多项关键技术创新性整合,系统化提升了人形机器人的感知与推理规划能力,为工业场景的规模化应用奠定基础。

Prompt:"Move the material box to the conveyor belt."Thinker:"First locate the conveyor belt, then place the material box."Walker S2在工业场景中自主完成上料

第一,自研视觉编码器基座,构建精准环境感知。优必选以ViT作为视觉编码器原型,结合Co-DETR检测头,依托Object 365等开源数据在通用视觉任务上进行预训练,并通过多阶段模态对齐机制实现了视觉-语言模态的高效融合。最终,在优必选机器人数据集上进行微调,显著提升机器人在工业场景中对物体、障碍和操作上下文的识别能力,为复杂环境下稳定可靠的多模态环境感知奠定了坚实基础。

第二,超大规模参数架构,提供强大语义理解基础。优必选自研了具有百亿参数的多模态大模型Thinker基座,实现视觉-语言-时间的跨域统一表征,使机器人能够在多场景中准确捕捉环境细节、理解任务指令并做出推理,为自动化操作提供可靠的认知基础。

第三,时序增强算法与强化学习方法,增强长程任务规划连贯可靠。通过大模型蒸馏技术,将百亿参数模型效果浓缩至7B参数模型中,在保持高性能的同时增强多步骤任务分解与连续决策能力。该优化使模型可以在端侧部署,用机器人自身搭载的算力就可实时自主拆解复杂流程,避免规划中断或逻辑混乱,在流程严格、环环相扣的工业场景中展现出关键价值,将有力保障生产连贯性和操作安全性。

通用基础能力打造+工业场景精调共创工业人形机器人应用生态

工业场景的精调策略正成为推动多模态大模型迈向实际应用的关键力量,为人形机器人在生产线上的稳定、高效部署奠定了技术基础,加速其从技术验证走向规模化实战应用的进程。

优必选创新性地采用“通用基础能力打造+工业场景精调”的微调策略,基于超200万条视频数据构成的大规模训练集进行预训练,随后引入优必选在工厂实训中积累的亿级工业数据集进行微调,并对工业场景任务规划数据加以清洗与整合,构建高效多模态大模型学习闭环。通过这一流程,模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,最终显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,实现在多种复杂场景中的泛化性与稳定性。

Prompt:"Move the material box onto the pile of boxes next to it."Thinker:"The middle slot is the best one for the material box."Walker S2在工业场景中自主规划任务

在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2 实现“最强大脑”再进化,不仅具备高精准环境感知能力,更能够在动态场景中高效完成任务分解、实时调整与稳定规划。借助Thinker,Walker S2可精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联,显著提升长周期任务的执行稳定性。在复杂流水线环境中,机器人展现出持续连贯的规划能力,大幅降低对人工干预的依赖。

实际应用数据显示,相比仅基于通用数据微调的模型,采用工业数据集进行二次微调后,Walker S2在拆码垛规划等典型任务的中的规划精度提升超过 20%,有力验证了该技术方案的产业化价值,相关技术报告将在arxiv上发布。

Prompt:"Move the material box onto the roller rack."Thinker:"First locate the roller rack and then place material box."Walker S2在工业场景中自主规划任务

当前,人形机器人正在进入大规模应用的关键阶段,其发展亟需与开发者共同构建开放、协同的应用生态。为此,优必选将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型,为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选多模态大模型Thinker,面向各类新场景开展精调与二次开发,助力提升开发效率。我们期待与全球开发者携手,共创工业人形机器人的应用生态,为具身智能行业的加速发展注入持续动能。

相关新闻

编辑精选