中国人形机器人创新发展报告2025
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 人形机器人“大脑”关键技术

人形机器人的“大脑”主要用于实现多模态数据感知、信息理解与融合、任务规划与决策等功能。特别是针对动态开放环境下人形机器人的感知与控制,要构建人形机器人的人-机-环境共融交互能力,以支撑全场景落地应用。只有大规模数据集、云边端一体计算架构、多模态感知与环境建模等多方面技术能提供支撑和实现融合创新,以端到端具身大模型为核心的人形机器人“大脑”才能取得突破和发展。人形机器人“大脑”的关键技术架构如图2-3所示。

图2-3 人形机器人“大脑”的关键技术架构

具体而言,人形机器人通过视觉、触觉等多种传感器获取环境信息,并利用多模态融合感知技术将不同模态的数据直接输入深度神经网络,再通过联合学习实现多模态信息的无缝融合,获得更全面、准确的环境表征。多模态感知数据经过预处理后,被输入具身大模型进行理解和推理。具身大模型通过海量多模态数据的预训练,将多模态输入映射到一个统一的语义空间,并在此基础上进行任务理解、决策规划等高层认知。具身大模型的训练依赖于规模化数据集。多模态、多领域的大规模数据为模型提供了广泛的先验知识,使其能够应对复杂多变的现实环境。同时,数据集还可以通过数据增强、模拟环境生成等技术不断扩充,提升模型的鲁棒性和泛化能力。云边端一体计算架构通过软硬件协同设计,针对机器人应用的特点进行优化,可以大幅提升系统的实时性、能效比和可靠性,发挥云边端不同层级计算资源的优势,实现具身大模型推理、多模态感知的高效协同。