2026/6/8 5:26:28
网站建设
项目流程
北京 外贸网站,如何提高seo关键词排名,网站建设的后如何发布,做网站需要的知识12月9日#xff0c;在地平线首届技术生态大会#xff08;Horizon Together 2025#xff09;的《从智能汽车到机器人的技术跃迁》专题分论坛上#xff0c;地平线机器人实验室负责人苏治中发表了题为“开源框架和基础模型赋能具身智能行业”的演讲。苏治中系统介绍了地平线在…12月9日在地平线首届技术生态大会Horizon Together 2025的《从智能汽车到机器人的技术跃迁》专题分论坛上地平线机器人实验室负责人苏治中发表了题为“开源框架和基础模型赋能具身智能行业”的演讲。苏治中系统介绍了地平线在具身智能领域的关键技术布局涵盖四大核心模块具身智能仿真数据引擎 EmbodiedGen、人形全身运控基础模型 HoloMotion、视觉语言导航模型 VLN以及通用操作基础模型 HoloBrain。此外他也重点分享了地平线推出的具身智能学习框架——RoboOrchard。RoboOrchard 融合了地平线在自动驾驶量产实践中积累的经验构建为一套更贴近量产需求的学习框架。该框架特别注重数据质量、部署灵活性以及对不同机器人本体的广泛适配能力。目前地平线已在 RoboOrchard 框架中开源了多项关键技术包括视觉语言导航 VLN 中的Think系列和Dream系列以及通用操作模型 HoloBrain 中的 SEM 与 H-RDT 模块等。以下是苏治中演讲中的重点内容一、 地平线机器人实验室的定位我们的团队叫地平线机器人实验室。地平线已经有一个子公司叫地瓜机器人是聚焦在具身智能包括泛机器人行业的生态为这个行业去提供底层的芯片以及基础设施的技术。那么机器人实验室更多是地平线内部的一个面向前瞻性研究的机构。我们会用探索去支持包括地瓜机器人在内的整个具身行业。因为具身智能行业仍然处在早期还有非常多的技术问题需要解决。现在还远远没有到一个大家去竞争或者PK的阶段我觉得大家还是要共创去突破一些技术的边界。机器人实验室简介图片来源地平线我和我的团队都是来源于地平线原有的智驾团队有非常丰富的量产经验同时也有很多、很不错的研究成果产生包括像我们跟李弘扬老师共同完成的UniAD曾经获得了CPR2023的Best Paper。二、地平线在具身智能领域的关键技术布局对于具身智能我们实验室在几个关键技术上都是有一定的布局。我们知道如果一台机器人要去最终完成一个任务首先需要有数据我们要有仿真的数据引擎去构建一个环境之后机器人需要能够控制自己的身体来完成运动控制的功能紧接着它要能够到达目的地要有导航的功能到了目的地之后要用双手灵巧地去操作来完成具体的任务。地平线的具身智能关键技术布局图片来源地平线所以我会在这几个方面分享一些我们的进展。1. EmbodiedGen具身智能仿真数据引擎首先是我们的EmbodiedGen —— 具身智能仿真数据引擎EmbodiedGen是一个一站式的数字资产的生成引擎。EmbodiedGen生成的数据是可以一键式导入主流的仿真器。EmbodiedGen具身智能仿真数据引擎图片来源地平线当前获取具身智能的真实数据普遍是采用遥操作的方式但是这种方式成本非常高需要大量的机器人本体和遥操员。但是通过仿真数据引擎我们可以生成真实且低成本的一些资产给具身智能的机器人提供一个训练环境。EmbodiedGen有两个流程一个是通过Real2Sim可交互式重建的技术去构建数字孪生另一个则是通过完全AI生成的方式去构建虚拟环境。1Real2SimReal2Sim的管线(Pipeline)是通过输入一些用手机或者任意的相机拍摄的一些照片它就能够复刻出来相对应的仿真环境且跟我们的真实世界是能够非常逼真的去对齐可以进行一些模型的训练。当然中间过程中会涉及到各种各样的一些基础模型或者技术。Real2Sim 构建物理世界的数字孪生图片来源地平线在Real2Sim里面有我们两个自己的关键工作一个是IGFuse它能够通过多张视角的图片去构建一个可交互的的环境即进行可交互的重建分离背景和前景另一个是3d-Fixer是一种前馈式的重建技术。它的核心能力是在单张图输入的情况下通过前馈式的推理端到端生成完整、可交互的数字孪生场景。Real2Sim 技术组件图片来源地平线2AI生成方式纯AI生成的方式就跟真实世界没有关系了。我们可以通过一些任务的提示作为输入比如说我要完成把一个香蕉捡起来放到桌上的任务然后用Franka机械臂作为一个输入 。整套管线就能够生成一个用来执行此任务的环境过程中也涉及到各种大模型的一些应用。AI Generation 可交互数字世界生成图片来源地平线这套管线也包含我们两个关键的工作纹理生成和铰链物体生成。AI Generation 技术组件图片来源地平线a.纹理生成可以通过去融入文生图的基础模型以及3D的纹理生成模型的一种混合的微调去获得一个真实的且容易控制的3D资产的纹理。b.铰链物体生成我们今年在NeurIPS2025上发表的DIPO 它是通过两张图片去生成一个可交互的铰链物体所谓铰链物体就是像抽屉、门这类的物体。原有的生成技术面临的一个问题是比如说一个东西是门还是抽屉它存在歧义。我们是通过一张关闭的和一张打开的两张图片就能够完美的复现出来一个铰链的物体。2. HoloMotion人形全身运控基础模型HoloMotion包含了完整的管线(Pipeline)可以让大家通过这套东西去做数据的获取做模型的并行训练最终能够得到一个实时的、鲁棒且可泛化的全身运控的模型。https://horizonrobotics.github.io/robot_lab/holomotion/ (二维码自动识别)当前HoloMotion的技术架构并不复杂是相对比较传统的Teacher-Student的架构。Student的这部分采用的是基于Tranformer 的MoE架构 用一个大模型来执行这种复杂的动作。HoloMotion当前技术架构图片来源地平线现在HoloMotion已经实现了Imitate any pose即对于任意轨迹的跟踪。在未来一年我们计划让HoloMotion支持Follow any command执行任意指令、Control any embodiment控制任意的本体以及Move on any terrain在任意的地形上去行走。HoloMotion的Roadmap图片来源地平线我们也详细地列出了技术架构包括如何去做Motion plan如何去做 Universal的Motion embedding如何去做 Motion tracking。HoloMotion可以通过仅仅观察视频去学习视频中的舞蹈演员的动作然后复刻到机器人身上。得益于HoloMotion的这种并行的强化学习训练我们可以完成任意多数量的舞蹈在一天之内就能完成学习。3. VLN视觉语言导航我们刚刚完成的一套有图的视觉语言导航的方案。它同样是基于大模型的能力名字叫FSR-VLN Fast and Slow Reasoning for Vision-Language Navigation。视觉语言导航方案FSR-VLN图片来源地平线我们会把特征图作为Memory通过不同层级的检索系统来获取一个鲁棒的 VLN。现有VLA大模型很少有Memory。除此之外我们还有一些没有地图或者说没有记忆的导航工作Think系列Dream系列。1Think系列Think系列包含两大部分Aux-Think和Progress-Think。视觉语言导航 Think系列图片来源地平线Aux-think就是辅助思考的意思是业界首次系统地去验证思维链作为一个辅助监督的一种方法。它使用大概只有50%的数据量就能获得现在业界最好的一个效果。思维链是在大语言模型推理阶段常用的一个方案即通过增加在推理阶段的开销来获取更好效果。我们是比较创新性地把它作为一个辅助监督搬到了训练阶段同时又不损失性能。Progress-Think也是我们最近刚刚完成的通过一个额外的模块去预测VLN在当前阶段的任务达成程度。比如它要去某个地点已经完成了大概30%通过自监督的去学习“进度”的方法来去获得性能提升。2Dream系列Dream可以认为是一边行走一边想象或者说一边在大脑中去构思未来的场景的一种方法。它其实是一种结合世界模型和端到端的一种比较好的方法。目前我们刚刚发布Dream系列中的MonoDream它是通过单目去想象环视图来进行VLN的工作。视觉语言导航 Dream系列图片来源地平线左侧是它的结构图我们可以看到它输入的仅仅是单帧的图片但是它在“想象”自己周围的环境。右侧则是它定性和定量的一些评价。同样MonoDream也是在数据量非常小的情况下达到了特别好的效果。4. HoloBrain 通用操作基础模型通用操作应该说是具身智能最难的一个任务跟导航或者运控不一样操作模型要能够理解通用的指令、通用的环境同时又要控制机械臂和一些物体去发生一些很精巧的交互。它其实还要对这些物体的一些物理属性能够有一定的认知所以它是非常困难的。1HoloBrain技术架构现在HoloBrain虽然发布了但是我们暂时还没有开源。前面我们刚刚讲过的所有内容都是已经开源了。这里简单给大家介绍一下HoloBrain的框架图。HoloBrain 技术架构图片来源地平线最左侧其实是大规模的预训练遵循现有大语言模型类似的训练范式从大规模预训练到后训练的过程。在预训练阶段我们不仅会应用到真实世界的机器人的数据也会广泛地应用仿真数据和大规模人类数据的预训练因为人类数据在互联网上是非常多的。当然目前像这种第一视角的数据也并不是那么丰富。在模型架构层面我们做的主要的一个创新是空间感知的增强。现有的VLA通常是指输入单张图片也不做太多空间的建模。地平线地瓜机器人作为一个“大脑”这样的公司我们其实是希望能够去支持“一脑多型”。既然要支持“一脑多型”去构建一个相对的动作空间能够在不同的本体上去适配是非常重要的所以我们也研发了Unify Relative Action Space。在后训练阶段除了高精度的数据还需要有强化学习。除了强化学习之外我们也会用前面讲到EmbodiedGen生成的这种高精度的 、高真实度的仿真数据去做一个Co-Training。HoloBrain也会由我们完成的一些关键的技术工作去组成包括SEM和 H-RDT。a. 技术组件 SEMSEM是Enhancing Spatial UnderStanding for Robot Manipulation 是我们自研的在VLA上进行空间感知增强的一个模型结构与常见的VLA不同它不做任何的空间建模。HoloBrain 技术组件SEM图片来源地平线但是在SEM里面首先我们会统一所有的相机跟机械臂的坐标系让它们是在同一个坐标系下去工作。其次在模型结构层面我们也会“显式”地将内参和外参编码到VLA中。通过这样的两个步骤包括机械臂的的状态、末端的相对位置等都会在统一的空间下去进行建模和编码这个在目前的学术界其实做得比较少。这也是因为我们过去做自动驾驶的一个“直觉”做自动驾驶不可能不在模型中对内参和外参进行建模。这样的两个创新点也是让我们在仿真任务上—— RobotTwin的16个任务和真机实验上的性能都取得了明显的提升。而且更重要的是我们进行了一个相机高度的泛化性测试空间感知的增强也表现出了非常好的相机泛化性。其实现有的工作很少有去关注这一点关注这一点也是跟我们过去自动驾驶的背景有很大的关系。b. 技术组件H-RDTRDT 是清华大学研究的、非常有名的、且早于π0的一个双臂操作的基础模型。H-RDT是地平线和清华大学共同在RDT的基础上去扩展了人类数据预训练的能力。它有两阶段的训练第一个阶段会去用人类数据即人类的第一人称视角数据就是人手的数据去做一个预训练 。之后再去进行基于多种本体机械臂的后训练来获得一个比较好的性能。HoloBrain 技术组件H-RDT图片来源地平线其实我们做了非常多的实验。在右侧我们仅仅展示了一个基于UMI去做采集基于UR5去做部署的一个效果。可以看到其实它相比原版的RDT相比π0以及相比不用人类数据做预训练的效果其实提升都非常明显。2) HoloBrain的Roadmap具身智能现在仍然处在早期所以这里也给大家分享一下我们对于具身智能通用的操作模型达成的一个Roadmap在模型结构、通用能力、训练范式和数据引擎上其实都有非常多的工作要去做。HoloBrain通用操作基础模型的Roadmap图片来源地平线在模型层结构层面我们会由现在的仅仅是在VLA上去做一些微创新到VLA与Word model的结合再到Latent Thinking 即在“隐空间”上做一个思考。在通用能力层面现在大家更多关注的是环境的泛化。 之后我们也会关注更多的模态融合包括触觉以及目标物的泛化。比如说我要抓取 它对任意物体要都能完成抓取。最后我们会期望能够达到通用指令的In-Context Learning就是上下文学习能够对于未见过的指令实时地去建模和学习达成这样的通用操作能力。在训练范式上现有的是采用大规模的模仿学习和少量的强化学习。我们期望能够进展到大规模的强化学习大规模的强化学习才有可能达到一个“超人”的状态。最后是终身学习我们知道现有的模型一旦它部署之后它就不会再改进了。终身学习不仅仅是具身智能也是整个AI行业都非常关注的一个话题。在数据引擎层面除了现在我们做的跨本体和人类数据的预训练之外我们也会进一步地去应用仿真数据弥合Sim2Real Gap。最终完成VLA模型完全在Word Model中的训练。三、RoboOrchard具身智能学习框架我们还开源了RoboOrchard具身智能学习框架。像我们刚刚讲到的那些具身智能的模型比如说导航的Think系列Dream系列以及我们的操作模型SEM和H-RDT都是在RoboOrchard的框架中进行开源。https://github.com/HorizonRobotics/RoboOrchardLab (二维码自动识别)这个框架包含完整的ROS2 Packages 方便大家去部署。另外在library层面也包含了从数据到训练到仿真的全链路环节。RoboOrchard也是结合过去我们在自动驾驶量产领域的一些经验去构建了一套更面向于量产更关注包括数据质量、部署灵活度、对于不同本体适配程度的一个学习框架。RoboOrchard的特性图片来源地平线如果大家期望把一个具身智能产品落地又期望找到一个好的框架我相信RoboOrchard一定会帮助到大家。