北京建设商业网站寻找外贸客户的网站-Seo优化-定安县网站建设公司

北京建设商业网站,寻找外贸客户的网站,产品推广方案思维导图,网站建设展板视觉–语言–动作#xff08;VLA#xff09;模型在机器人场景理解与操作上展现出较强的通用性#xff0c;但在需要明确目标终态的长时序任务#xff08;如乐高搭建、物体重排#xff09;中#xff0c;仍难以兼顾高层规划与精细操控。针对这一问题#xff0c;北京大学、香…视觉–语言–动作VLA模型在机器人场景理解与操作上展现出较强的通用性但在需要明确目标终态的长时序任务如乐高搭建、物体重排中仍难以兼顾高层规划与精细操控。针对这一问题北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。论文题目ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation论文链接https://arxiv.org/abs/2512.02013项目主页https://sites.google.com/view/maunalvla不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构在同一模型中统一多专家模块实现多模态生成与动作执行的紧密协同。首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书再通过显式与隐式相结合的「思维链」ManualCoT推理将信息反馈给「动作专家」为每一步操作提供清晰的显式控制条件的同时通过潜在表征为动作生成提供持续的隐式引导实现理解与生成的高度统一。实验结果表明ManualVLA 在现实场景任务中表现出显著优势其平均成功率相较于分层结构的最新基线方法提升约 32%充分验证了「生成手册–指导动作」这一统一范式的有效性。一、研究背景与挑战近年来VLA 模型在机器人场景理解和泛化操作方面取得了显著进展推动了通用具身智能体的发展。但当面临需要精确定义最终目标状态的长周期任务例如复杂的乐高组装或物体重新排列时现有模型仍然难以协调高级规划与精确操作。这些任务主要面临两个核心难题首先VLA 模型必须执行精确操作以严格对齐预定义的最终场景或物体配置其次模型必须有效地将长周期规划与细粒度控制相集成同时保持对多样化现实世界环境的泛化能力。现有的分层方法通过依赖人工制作说明书或人类演示视频来模仿这种能力然而这些方法通常在泛化到未见过的最终目标状态方面存在局限性在系统复杂度、部署成本和泛化性之间难以取得兼顾难以形成一个统一、可端到端训练和部署的体系。二、ManualVLA 方法陈述为此ManualVLA 让模型学会「自己生成说明书再按说明书去执行动作」。在推理阶段系统首先接收自然语言指令、当前场景图像和最终目标图像由规划专家生成包含关键步骤的多模态手册由文字描述指出要操控哪些物体以及要完成的子目标像素级坐标给出目标物体在图像中的精确位置子目标图像则展示子目标完成后的「预期画面」。动作专家在闭环控制中执行这一子目标直到达到预期状态再进入下一次手册生成与执行。通过这种逐步推进的方式原本困难的长时序任务被拆解为一系列可控、可解释的短阶段。▲ 图 1 | (a) 诸如乐高拼搭或物体重排等具有预定义目标状态的长程任务对智能机器人构成了重大挑战。(b) 为了解决此类任务我们提出了 ManualVLA。这是一个基于 MoT 架构构建的统一 VLA 模型它通过一种精心设计的「说明书思维链」Manual Chain-of-Thought实现了多模态手册生成与动作生成之间的紧密协同。架构设计ManualVLA 将 Janus-Pro 1B 拓展到 MoT 架构形成统一 VLA 模型并集成「规划专家」和「动作专家」实现了多模态手册生成和动作执行之间的连贯协作。规划专家处理图像信息时ManualVLA 采用了基于 VQ 的视觉分词器 (VQ-based vision tokenizer)该分词器遵循 VQ-GAN 的编码器-量化器-解码器架构对子目标图像进行离散化建模。动作专家采用基于扩散去噪的方法进行动作建模通过两层 MLP 构建将噪声动作注入动作专家的噪声编码器以及用于从潜在表示中预测噪声的噪声解码器。在动作生成的视觉输入上ManualVLA 采用了 SigLIP-large从 384×384 输入图像中提取高维语义特征。ManualCoT 思维链机制该机制从显式与隐式两条路径影响动作生成。显式路径模型把规划专家预测的目标位置以 visual prompt 形式叠加在当前图像上构成带有明显操作区域提示的「提示图」动作专家直接以此作为视觉输入之一仿佛在图像上用荧光笔圈出了「请在这里操作」。隐式路径手册生成时产生的内部特征——无论对应文字描述、坐标还是子目标图像——都通过专门设计的注意力掩码被动作专家读取相当于在看不见的空间中不断提醒动作模块「当前在做什么、应该做到什么程度、做完以后世界会是什么样」。消融实验表明去掉任一路径都会显著降低长任务中的成功率说明只有显隐结合才能兼顾精度与稳健性。▲ 图 2 | (a) 该框架包含两个专家模块负责生成多模态「说明书」的规划专家以及负责预测精确动作的动作专家。规划专家处理人类指令、当前图像和最终目标图像生成结合了下一步图像、位置坐标和子任务指令的中间手册。我们引入了一个显式思维链 (Explicit CoT) 推理过程其中每个位置指示符都作为一个视觉提示 (Visual Prompt) 嵌入到动作专家的观测输入中。(b) 结合跨任务共享注意力机制和专门设计的 Attention mask生成的「说明书」token 也被用作动作生成的条件信号从而实现了一种能有效引导动作专家的隐式思维链 (Implicit CoT) 推理过程。三阶段训练第一阶段基于互联网机器人数据集筛选与装配和重排相关的轨迹构建超过 40 万条示例的预训练集只更新动作专家学习抓取、搬运和放置技能。第二阶段利用基于三维高斯表示的数字孪生工具对乐高板、单块积木和常见桌面物体进行三维重建在虚拟空间中反复随机排列组合自动渲染每个中间状态的图像并记录对应的位置和文字描述模板为每个任务合成上万帧带有精确标注的手册数据用于训练规划专家。第三阶段在真实双臂平台上通过遥操作采集每个任务 100 条专家示范轨迹自动抽取关键帧生成与真实执行过程一致的手册–动作配对在此基础上对规划与动作两个专家进行联合微调使模型在真实环境中的规划–执行闭环更加贴合物理世界。▲ 图 3 | 数字孪生示例 (a) 我们重建了 3D 高斯溅射表征随后将其分解为乐高底板和单个积木。(b) 我们逐步地将积木放置在底板上/将物体放置在盒子上。三、真机、模拟器、泛化性实验真机实验在 Franka 双臂平台上ManualVLA 测试了三个需要明确目标状态的长周期真实世界任务——2D 乐高组装、3D 乐高组装和物体重新排列。在手册生成方面规划专家在 300 个未见过的测试样本上生成了令人满意的中间图像例如 2D 乐高组装的 PSNR 达 29.01低 FID 分数例如物体重新排列为 24.46证实了生成图像的真实性和保真度而极低的 MAE 分数例如 2D 乐高组装为 3.23则突显了模型在预测目标对象位置方面的精确性。▲ 图 5 | 「规划专家」逐步生成 ManualCoT「说明书」Pred 指代模型生成的预测结果GT 指代真实图像。▲ 表 1 | 在三个长程任务上ManualVLA 生成的中间目标图像与 UV 坐标的质量的量化结果。动作生成结果ManualVLA 在所有三个真实世界长周期任务中均取得了最高成功率相比最强的分层基线 (VLM π0.5)最终任务完成率提高了 15% 到 30%平均成功率高出 32%。基线模型通常难以在整个长序列中保持性能但 ManualVLA 通过 ManualCoT 策略有效地将复杂任务分解并锚定到精确动作中缓解了性能随步骤数增加而下降的问题。▲ 表 2 | 我们使用 20 个模型均未见过的目标状态进行测试得到完成长程任务的操作成功率与关键中间步骤的成功率。仿真实验ManualVLA 在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率超越了 SOTA 方法 π0 的 63%进一步验证了 ManualCoT 策略在指导精确动作生成方面的优势在通用原子任务上也能表现出良好效果。▲ 表 3 | ManualVLA 与各 Baseline 模型在仿真环境 RLBench 上各项原子任务的成功率与方差。消融与泛化实验消融实验证明说明书中所有模态信息文本、图像、UV 坐标和隐式 CoT潜在空间中的条件信号推理对于解决长周期、目标明确的操作任务是不可或缺的两者结合才能达到最佳性能。同时ManualVLA 在未见过的背景、物体形状和光照变化下也表现出鲁棒的泛化能力。▲ 表 4 | 我们探究了如下因素对任务成功率的影响(a) 说明书中包含的信息(b) 显式与隐式的 ManualCoT 思维链机制© MoT 架构与 action 生成范式。▲ 表 5 | 在明显变化且模型未见过的背景、物体形状和光照变化下ManualVLA 的任务成功率。

北京建设商业网站寻找外贸客户的网站

模板网站与定制网站的价格万网域名指向网站

企业培训网站模板网站与定制网站的价格

家具行业建设网站百度个人中心登录

什么是网站服务器名称保定网站建设费用

seo网站诊断顾问广州天河区房价

温州网站建设哪家专业无锡建设管理服务中心