2025年4月30日
引言
一周前,Physical Intelligence 发布了 π0.5 的论文。在这篇论文中,π0.5 展现了惊人的泛化性,这是一种视觉-语言-行动(VLA)模型,使机器人能够广泛泛化到新的环境和任务中。
除了泛化性以外, 其关键创新在于其协同训练框架,整合了包括其他机器人、高层语义预测、语言指令和网络数据在内的多种数据源。
Physical Intelligence 提出的这种方法使模型能够根据高层提示在全新的家庭环境中执行复杂的多阶段行为,例如清洁厨房和卧室。该模型采用层次化架构,首先预测高层子任务,然后生成低层动作,为每个层级利用不同的知识源。
论文中还提到,要实现机器人操作的有效泛化,需要从各种异构信息源转移知识,也是第一次验证了异构机器人数据可在预训练阶段发挥作用。
通过在不同机器人、环境和数据类型的数据上进行协同训练,模型可以借鉴广泛的知识基础来处理多样化的情况。这类似于人类如何结合亲身经验、他人的指导和一般知识来解决新环境中的问题。论文表明,这种方法使机器人能够在未见过的环境中执行长时序和灵巧的操作技能,显著提升了基于端到端学习的机器人系统的性能。
刻行时空时刻关注具身智能行业的发展,致力于为具身智能行业提供一站式数据管理平台与方案,加快具身智能落地的速度。
关键创新:协同训练框架与数据整合
协同训练框架
π0.5 模型的首要创新在于其独特的协同训练框架。这一框架打破了传统机器人训练中数据源单一的局限,将来自不同机器人的数据、高层语义预测、语言指令以及网络数据等多种异构数据源进行了有机整合。具体而言,训练数据涵盖了移动操纵器和非移动机器人在多种环境下的操作数据,以及从网络收集的图像描述、问答和物体定位等多模态数据。通过这种方式,π0.5 能够在训练过程中接触到极为丰富的场景和任务类型,为其后续在新环境中的泛化应用奠定了坚实基础。

层次化架构
π0.5 采用的层次化架构是另一项关键创新。该架构将任务执行过程分解为两个阶段:首先预测高层子任务,然后基于子任务生成低层动作。这种设计使得模型能够在宏观层面把握任务的整体结构,同时在微观层面精确控制机器人的具体操作。例如,在清洁厨房的任务中,模型先根据场景和任务指令预测出 “拿起盘子” 这一子任务,再生成相应的低层动作指导机器人完成盘子的抓取和放置。这种层次化的处理方式不仅提高了任务执行的成功率,还增强了模型对不同类型任务的适应能力。

它是如何工作的?
模型与训练方案
下图 1 中概述了 π0.5 模型和训练方案。模型权重是从标准 VLM 初始化的,该 VLM 是在网络数据上训练的,然后收益分为两个阶段:预训练阶段旨在使模型适应各种机器人任务,后训练阶段则旨在使其专精于移动操作,并配备高效的测试时推理机制。

图1:π0.5 的训练分为两个阶段
首先,在预训练阶段,结合所有不同的数据源生成一个初始的 VLA,使用离散标记。这一阶段利用了来自不同机器人平台、高级语义动作预测以及网络的数据。机器人数据使用 FAST 动作分词器将动作表示为离散标记。其次,在后训练阶段,模型针对移动操作的低级和高级推理进行了专业化处理,利用最相关的任务数据,包括人类监督者的口头指令。此阶段通过流匹配来表示动作分布,实现高效的实时推理,并能够表示细粒度的连续动作序列。在推理时,模型首先推断出一个高级子任务,然后根据该子任务预测动作。
在预训练期间,所有任务,包括涉及机器人动作的任务,都用离散标记表示,这使得训练简单、可扩展且高效。动作专家也在后训练阶段被加入到 π0.5 模型中,如同 π0 一样,以便更精细地表示动作,并实现实时控制所需的计算效率更高的推理。
在推理时,模型首先生成一个高级子任务供机器人执行,然后根据此子任务,通过动作专家预测低级动作。
预训练详解
在预训练阶段,π0.5 使用广泛的机器人和非机器人数据进行训练。图 2 展示了一个典型的预训练和后训练的案例。π0.5 被训练为标准的自回归变换器,执行文本、对象位置和 FAST 编码动作标记的下一个标记预测。

图2:预训练和后训练任务示例
π0 .5 在多样化的移动操纵器数据(MM)、多样化的多环境非移动机器人数据(ME)以及跨本体实验室数据(CE)上进行了预训练,同时还进行了高级子任务预测(HL)和多模态互联网数据(WD)的训练。在后训练阶段,π0.5 额外使用了口头指令(VI),并省略了跨本体实验室数据(CE),以使模型专注于移动操作和多样化环境。图中展示了每个类别中的一组示例任务。
多样化的移动操纵器数据(MM)。π0.5 使用了大约 400 小时的移动操纵器在大约 100 种不同的家庭环境中执行家务任务的数据。这个训练集的切片与 π0.5 的评估任务最直接相关,这些任务包括在新的、未见过的、家庭环境中进行类似的清理和整理任务。
多样化的多环境非移动机器人数据(ME)。π0.5 还收集了非移动机器人的数据,这些机器人要么使用单臂,要么使用双臂,在各种家庭环境中进行测试。这些机械臂固定在表面或安装平台上,由于它们显著更轻便且易于运输,π0.5 能够使用它们在更广泛的家中收集更多样化的数据集。这些 ME 数据来自和后续实验评估的移动机器人有着不同的形态。
跨本体实验室数据(CE)。π0.5 在实验室中收集了各种任务(例如,整理桌子、折叠衬衫)的数据,这些任务在简单的桌面环境中进行,且使用了多种类型的机器人。其中一些任务和后续的评估任务具有高度的相关性(例如,将餐具放入垃圾桶),而其他操作则不包括(例如,研磨咖啡豆)。这些数据涵盖了单臂和双臂机械手,以及静态和移动底座。π0.5 还包含了开源的 OXE 数据集。该数据集是 π0 使用的数据集的扩展版本。
高级子任务预测(HL)。将高级任务命令如“打扫卧室”分解为较短的子任务,例如“调整被子”和“拿起枕头”,类似于语言模型中的思路链提示,可以帮助训练好的策略理解当前场景并更好地确定下一步行动。对于MM、ME和CE中涉及多个子任务的任务数据,π0.5 手动标注所有数据的子任务的语义描述,并训练 π0.5 联合预测子任务标签(作为文本)以及根据子任务标签执行的动作。
多模态互联网数据(WD)。最后,论文作者额外增加了一组多样化的互联网数据,涉及图像描述、问题回答和预训练中的对象定位。
在物体定位方面,π0.5 进一步扩展了标准数据集,增加了室内场景和家庭物体的额外网络数据,并带有边界框注释。对于所有动作数据,论文作者在训练模型预测目标关节和末端执行器的姿态。为了区分两者,π0.5 在文本提示中添加了“<控制模式>关节/末端执行器<控制模式>”。所有动作数据使用每个数据集的各个维度的 1% 和 99% 分位数归一化到[-1,1]。论文作者将动作 a 的维度设置为一个固定数值,以适应所有数据集中最大的动作空间。对于具有较低维度配置和动作空间的机器人,则对动作向量进行零填充。
后训练
在使用离散标记对模型进行 28 万梯度步的预训练后,论文进行了第二阶段的训练,称为后训练。
这一阶段的目的既是为了使模型适应应用场景(家庭中的移动操作),也是为了增加一个动作专家,通过流匹配生成连续的动作片段。
此阶段联合训练下个词预测,以保留文本预测能力,并为动作专家(在后训练开始时初始化为随机权重)进行流匹配。
在后训练阶段,通过对论文中公式(1)中的目标函数进行优化。具体方式是,令 α =10.0,并额外增加 80k 步的训练。
后训练的动作数据集包括 多样化的移动操纵器数据(MM)和多样化的多环境非移动机器人数据(ME),经过筛选后(应当有大量的数据标注的工作),仅保留成功且长度低于固定阈值的片段。
在纳入异构机器人的数据的基础上,在后训练阶段还纳入多模态互联网数据(WD),以保持模型的语义和视觉能力,并包含对应于多环境数据集的高级子任务预测(HL) 数据部分。
最后,为了提高模型预测适当高级子任务的能力,在后训练阶段还额外的收集了口头指令演示(VI),这些演示由专家用户提供“语言示范”,选择合适的子任务命令,逐步指挥机器人执行移动操作任务。这些示例通过实时“远程操控”机器人并使用语言来执行任务而收集,本质上提供了训练政策的良好高级子任务输出的示范。
实验与结果:泛化能力的有力证明
实验设计
为了验证 π0.5 的泛化能力,论文设计了一系列严谨的实验。实验在全新的环境中进行,包括模拟家庭环境和真实家庭环境,这些环境在训练过程中从未被模型接触过。评估的任务涵盖了厨房清洁和卧室清洁等多阶段复杂任务,如将餐具放入水槽、将衣物放入洗衣篮等。同时,还引入了语言指令跟随实验,测试模型对具体用户命令的理解和执行能力,例如 “将剪刀放入抽屉” 或 “将砧板放入水槽”。
结果分析
实验结果显示,π0.5 在新环境中表现出色,能够成功完成各种任务。在模拟家庭环境的评估中,随着训练数据中环境数量的增加,模型的性能逐渐提升,这表明其泛化能力与训练环境的多样性密切相关。在真实家庭环境的测试中,π0.5 同样展现出了强大的适应能力,能够在不同布局和物体配置的厨房和卧室中完成清洁任务。此外,语言指令跟随实验进一步证明了模型对语言信息的理解能力,即使在面对未见过的物体类别时,也能够通过语言指令准确识别并操作目标物体。
观点与现象:对机器人学习的深刻启示
知识迁移的力量
π0.5 的成功证明了知识迁移在机器人学习中的重要性。通过从不同机器人、环境和数据类型中迁移知识,模型能够在面对新环境和任务时迅速做出合理的决策。这一现象表明,未来机器人训练应更加注重知识的跨域迁移和共享,以提高机器人的泛化能力和适应性。
端到端学习的潜力与挑战
π0.5 作为基于端到端学习的机器人系统,展示了端到端学习在复杂机器人任务中的巨大潜力。然而,同时也暴露了一些挑战。例如,模型在处理某些具有部分可观测性的场景时仍存在困难,这提示研究人员需要进一步探索如何在端到端学习框架中更好地处理不确定性和信息不完全问题。
结论
π0.5 模型凭借其创新的协同训练框架和层次化架构,在机器人泛化领域取得了显著突破。它不仅证明了知识迁移和多源数据整合对于提高机器人泛化能力的重要性,还为未来机器人学习的研究方向提供了重要启示。尽管仍存在一些挑战,但 π0.5 无疑为机器人走进真实世界迈出了坚实的一步。随着研究的不断深入和技术的持续进步,我们有理由相信,更加智能、灵活的机器人将在不久的将来成为现实,为人类的生活和工作带来前所未有的便利。
π0.5 第一次将跨本体的数据用在预训练阶段并展现出了泛化性。 这也意味着异构机器人数据采集场建设的必要性。

刻行时空在过去服务泛机器人行业的基础上构建了完善的平台和服务团队。在构建异构机器人数据采集厂或训练厂上,可一站式搭建数据采集、标注和管理的一站式方案,期待与行业客户交流。