网站推广分析四川省建设厅注册管理中心网站首页
2026/5/19 16:17:47 网站建设 项目流程
网站推广分析,四川省建设厅注册管理中心网站首页,固原建站公司,做接口的网站基于语言的动作表征弥合机器人控制中的尺度差异相关信息 快速了解部分 基础信息#xff08;英文#xff09;#xff1a; 题目#xff1a;Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations时间年月#xff1a;December 2025机构…基于语言的动作表征弥合机器人控制中的尺度差异相关信息快速了解部分基础信息英文题目Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations时间年月December 2025机构名Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, Harbin, ChinaState Key Laboratory of Cognitive Intelligence, iFLYTEK Research, ChinaSuzhou Research Institute, Harbin Institute of Technology, Suzhou, China3个英文关键词Robotic Control, Language-Based Action Representations, Distribution Shifts1句话通俗总结本文内容This paper proposes a semantically grounded linguistic representation to normalize robotic actions, addressing distribution shifts caused by numerical variations across robotic platforms and tasks, and improves the generalization and transferability of robotic manipulation through a two-stage training strategy.研究痛点现有研究不足 / 要解决的具体问题分布偏移问题不同机器人平台、任务的动作指令存在显著数值差异导致机器人动作数据间出现严重分布偏移阻碍预训练知识的有效迁移现有模型需大量微调才能在新领域良好运行。模态不平衡问题现有语言条件模仿学习方法中动态视觉输入随时间步变化但语言指令保持静态这种不平衡限制了语言模态对动作生成的指导作用未能充分发挥语言潜力。动作生成精度问题粗粒度预测虽易实现但执行效果远差于细粒度预测且传统固定阈值和窗口大小的运动信号生成方法难以处理多数据集下的复杂运动模式易将执行中的微小抖动误判为多个不同动作。核心方法关键技术、模型或研究设计简要基于规则的语言表征将机器人末端执行器动作通过规则映射转化为粗粒度语言描述即运动表征该表征忽略数值尺度影响、强调方向性减少分布偏移并缩小动作令牌与标准词汇令牌的特征距离。自适应多尺度运动检测采用空间归一化和动态阈值调整用自适应阈值替代固定阈值以应对机器人抖动用包含快、中、慢三种时间分辨率的分层检测窗口替代单一固定窗口适配不同类型机器人运动。两阶段训练策略预训练阶段基于Open X-Embodiment数据集子集让模型以自回归方式根据观测和指令生成运动令牌捕捉通用方向知识。微调阶段在LIBERO、Bridge V2等下游数据集上让模型结合预测的运动令牌推断具体动作令牌实现从粗粒度到细粒度动作的精准预测。深入了解部分相比前人创新在哪里创新的动作归一化方式不同于传统离散化动作表征对数值尺度敏感的特点提出基于语义的语言化动作表征运动表征从根本上减少数值差异导致的分布偏移且无需外部模块或人工干预能自主从多样数据集中生成语言对齐目标。自适应运动检测机制摒弃前人固定阈值和窗口大小的运动生成方法设计自适应阈值结合速度校正补偿高速运动抖动和分层时间窗口适配不同运动类型有效抑制多数据集下的运动抖动和错误分割提升复杂动作识别精度标注准确率达86.37%远超ECoT方法的57.62%。优化的两阶段训练逻辑预训练阶段专注学习通用运动表征遵循课程学习理念从易到难降低学习和迁移难度微调阶段结合运动令牌生成细粒度动作令牌兼顾通用知识迁移与具体动作执行精度且在训练中明确对齐对数值偏移最敏感的运动组件加速收敛。解决方法/算法的通俗解释以及具体做法1. 动作令牌化Action Tokenizer通俗解释把机器人连续的动作信号拆分成一个个离散的“动作令牌”就像把一段连续的文字分成一个个单词方便模型学习和预测。具体做法参考RT2和OpenVLA的方法模型需预测7个动作令牌对应机器人7维动作∆X、∆Y、∆Z、∆roll、∆pitch、∆yaw、GripperState。训练时对各维度变量归一化排除1%和99%分位数以外的异常值避免归一化范围过大导致预测粒度粗、精度低推理时对输出反归一化。将每个归一化变量离散为256个区间每个区间用唯一令牌extra_0–extra_255表示把动作预测转化为令牌序列预测任务。2. 运动生成Motion Generation通俗解释根据机器人的运动情况生成用自然语言描述的运动指令同时通过灵活调整判断标准准确识别真实运动、排除干扰如抖动。具体做法运动表征构建生成固定集合的自然语言描述如“move forward left up”“tilt down”等涵盖位置位移move、角度旋转tilt/rotate和夹爪动作open/close gripper无运动时标注为“stop”。自适应阈值计算设基础阈值TbaseiT_{base }^{i}Tbasei​、灵敏度系数β和阈值调整窗口τ通过公式Ti(t)Tbaseiβ⋅1τ∑t−τt∣Δ^i(s)∣T_{i}(t)T_{base }^{i}\beta \cdot \frac{1}{\tau} \sum_{t-\tau}^{t}\left|\hat{\Delta}_{i}(s)\right|Ti​(t)Tbasei​β⋅τ1​∑t−τt​​Δ^i​(s)​计算动态阈值根据运动速度调整补偿高速运动抖动。分层检测窗口设计定义快f、中m、慢s三种时间分辨率的窗口分别通过公式Mf:∥Δtfp∥2TM_{f}:\left\| \Delta_{t_{f}} p\right\| 2 TMf​:​Δtf​​p​2T、Mm:∥Δtmp∥TΛmin⁡τ∈[t−Δtm,t]∥Δτp∥0M_{m}:\| \Delta _{t_{m}}p\| T \Lambda \operatorname* {min}_{\tau \in [t-\Delta t_{m},t]}\| \Delta _{\tau }p\| 0Mm​:∥Δtm​​p∥TΛminτ∈[t−Δtm​,t]​∥Δτ​p∥0、Ms:∥Δtsp∥TΛminτ∈[t−Δts,t]∥Δτp∥T2ΔtsM_{s}:\left\| \Delta_{ts} p\right\| T \Lambda min _{\tau \in\left[t-\Delta t_{s}, t\right]}\left\| \Delta_{\tau} p\right\| \frac{T}{2 \Delta t_{s}}Ms​:∥Δts​p∥TΛminτ∈[t−Δts​,t]​∥Δτ​p∥2Δts​T​判断各窗口运动最终综合Motion(t):Mf(t)∨Mm(t)∨Ms(t)Motion(t):M_{f}(t)\vee M_{m}(t)\vee M_{s}(t)Motion(t):Mf​(t)∨Mm​(t)∨Ms​(t)确定是否为有效运动。3. 两阶段训练Two-Stage Training通俗解释先让模型学习用语言描述机器人该做的大致运动再让模型根据这个语言描述学习具体的动作细节分步骤提升模型能力。具体做法数据构建每个操作轨迹关联任务指令如“What action should the robot take to {instruction}?”轨迹包含离散动作序列AiA_{i}Ai​和对应视频帧观测序列OiO_{i}Oi​引入运动模态MiM_{i}Mi​形成数据元组(Oij,pi,Mij,Aij)(O_{i}^{j}, p_{i}, M_{i}^{j}, A_{i}^{j})(Oij​,pi​,Mij​,Aij​)j为轨迹内步骤pip_{i}pi​为任务指令。预训练阶段基于Open X-Embodiment的7个子数据集约12000条轨迹让模型按表1数据格式以自回归方式学习ϕh(m∣o,p)\phi_{h}(m | o, p)ϕh​(m∣o,p)根据观测o和指令p生成运动令牌m捕捉通用运动语言关系。微调阶段在LIBERO和Bridge V2数据集上按表2数据格式让模型学习ϕ(a,m∣o,p)ϕh(m∣o,p)ϕl(a∣o,p,m)\phi(a, m | o, p)\phi_{h}(m | o, p) \phi_{l}(a | o, p, m)ϕ(a,m∣o,p)ϕh​(m∣o,p)ϕl​(a∣o,p,m)结合运动令牌m生成具体动作令牌a实现细粒度动作预测。基于前人的哪些方法动作解码与模型架构基础动作解码参考RT2Brohan et al. 2023和OpenVLAKim et al. 2024的离散化动作空间设计模型架构以OpenVLA为基础采用SigLIPZhai et al. 2023和DINO v2Oquab et al. 2024进行图像编码LLM骨干网络使用Qwen2.5Qwen et al. 2025。多模态数据处理思路借鉴Open X-EmbodimentO’Neill et al. 2024统一视觉、本体感觉、语言输入与动作轨迹的标准化格式以及LLaVA 1.5的VLM监督微调数据构建方式设计两阶段训练的数据输入格式。运动判断逻辑改进参考ECoTZawalski et al. 2024的运动判断逻辑修改规则确保机械臂处于运动过程中同时针对其固定阈值和窗口的不足提出自适应阈值和分层窗口改进方案。课程学习理念应用遵循Qi et al. 2024的课程学习原则在预训练阶段先让模型学习较易的通用运动知识降低后续学习和迁移难度。实验设置、数据、评估方式1. 实验设置模型架构基于OpenXLA图像分辨率标准化为224×224px用SigLIP和DINO v2编码后通道级联LLM骨干为Qwen2.5含0.5B、1.5B、3B三种参数规模动作令牌器新增256个特殊令牌对应256个区间。超参数预训练批次大小为2048微调批次大小为512学习率为2e-5实验在A100-80G GPU上进行。研究问题RQ1各改进部分对性能的单独贡献。RQ2改进后的模型是否优于现有基准和最先进方法。RQ3添加语言输出目标是否缩小动作令牌与语言令牌的差距。2. 实验数据预训练数据从Open X-Embodiment中选取7个子数据集含furniture-bench、jaco等共约12000条轨迹排除LIBERO和Bridge V2以评估泛化能力按文中方法生成运动数据。微调数据LIBERO含130语言条件操作任务用于终身决策学习中的知识迁移研究测试Spatial、Goal、Object、Long四个套件。Bridge V2含7200条演示数据覆盖10个环境、71个家庭场景任务在SimplerEnv基于Bridge V2模拟的测试环境中评估4个任务将勺子放在毛巾上、将胡萝卜放在盘子上、将绿色方块堆叠在黄色方块上、将茄子放入黄色篮子。3. 评估方式性能指标以成功率Success Rates作为核心评估指标计算不同任务、不同模型参数规模下的平均成功率及标准差。对比实验对比有无运动预训练、有无优化运动生成的模型性能评估各改进的贡献。与Diffusion Policy、ScaleDP、Octo、OpenVLA、RT-1-x、ECoT等基准方法对比验证模型优越性。表征分析用PCA和置信椭圆可视化LIBERO基准空间任务中模型嵌入对比有无预训练、有无运动表征下动作令牌与语言令牌的特征分布差距。提到的同类工作端到端动作生成相关RT1Brohan et al. 2022、RT2Brohan et al. 2023用FiLM和CLIP编码图像Transformer为骨干采用离散动作空间。OctoTeam et al. 2024、OpenVLAKim et al. 2024、Pi0Pi_{0}Pi0​Black et al. 2024基于Transformer骨干在Open X-Embodiment等大规模数据集上预训练探索机器人操作模型架构。RDTLiu et al. 2024引入物理可解释的统一动作空间解决多机器人臂数据预训练中的实体不一致问题。HPTWang et al. 2024利用特定于实体的令牌器将不同机械臂的本体感觉和视觉传感信息映射到共享潜在空间。文本指导动作生成相关RT-HBelkhale et al. 2024引入人工干预机制纠正语言描述中的错误。ECoTZawalski et al. 2024扩展语言推理链指导正确动作描述探索ChatGPT纠正动作的有效性。EmmaSun et al. 2024改进思维链生成引入轨迹中的显式状态信息提升模型任务理解和执行能力。CoALi et al. 2024a提出Chain-of-Affordance以图像中可用性位置作为思维链指导生成稳健动作。Qi et al. 2025构建物体-文本-方向对数据集关注物体方向对细粒度操作任务的影响。和本文相关性最高的3个文献Kim, M. J.; Pertsch, K.; Karamcheti, S.; Xiao, T.; Balakrishna, A.; Nair, S.; Rafailov, R.; Foster, E.; Lam, G.; Sanketi, P.; et al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.相关性原因本文模型架构基于OpenVLA且在实验中多次与OpenVLA对比性能OpenVLA作为开源视觉-语言-动作模型与本文核心的语言-动作表征融合思路高度契合是本文重要的技术基础和性能基准之一。Zawalski, M.; Chen, W.; Pertsch, K.; Mees, O.; Finn, C.; and Levine, S. 2024. Robotic control via embodied chain-of-thought reasoning. arXiv preprint arXiv:2407.08693.相关性原因本文的运动判断逻辑参考了ECoT该文献方法且针对ECoT固定阈值和窗口的缺陷提出改进方案ECoT作为文本指导机器人控制的代表性工作与本文均关注语言对动作生成的指导是本文重要的对比基准和改进对象。O’Neill, A.; Rehman, A.; Maddukuri, A.; Gupta, A.; Padalkar, A.; Lee, A.; Pooley, A.; Gupta, A.; Mandlekar, A.; Jain, A.; et al. 2024. Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration0. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 6892–6903.相关性原因本文预训练数据来源于Open X-Embodiment该数据集统一了多机器人、多任务的多模态数据格式为本文解决跨平台分布偏移问题提供了数据基础同时Open X-Embodiment相关的RT-X模型系列也是本文在机器人预训练领域的重要参考背景。我的主要就是把细粒度动作信息转化为语言表征用语言这种粗粒度的信息来作为中间量然后来弥补不同机器人的差距相当于从一个更高阶的角度来处理动作。然后用的时候再从语言指导生成细粒度动作

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询