2025年5月9日
背景
随着具身智能不断的推进和落地中,来自异构机器人的真机数据越来越蕴含更多的价值。不久前 Physical Intelligence 的最新问题在 π 0.5 也指出了在预训练阶段使用异构机器人的真机数据可以提升模型表现。实践中,目前人形机器人数据采集工厂往往牵扯数据采集、数据录制、数据标注、数据审核、数据导出、数据训练等环节。这就是自动驾驶行业早已验证过的数据闭环系统,也是刻行时空提倡的 SceneOps 理念在实践中的落地案例。通过使用刻行时空提供的异构机器人一站式数据采集与管理方案有三大好处:
无论何种品牌或架构的机器人,仅需部署刻行时空轻量级端侧软件,即可实现5分钟极简部署、无缝接入平台功能矩阵,真正实现跨品牌、跨型号的超低成本对接,降低 90% 机器人接入改造成本;
平台可接入万台机器人的同时写入 ,为规模化数据采集,降低成本奠定基础。
平台最大可管理 PB 甚至 EB 级别数据,同时内置数据清洗能力。 可在 MCAP、Bag、HDF5 和 RLDS 之间任意转换,也内置数据截取工具,直接导出在训练所需关键帧,提升训练效率。
本文旨在介绍通过刻行时空 SceneOps 平台的能力搭建了一套完整的数据采集、标注、管理和导出的任务管理流程,以提升团队协作效率,规模化降低数据采集成本。

方案流程图
为机器人安装端侧软件包
刻行时空提供了多种端侧软件包,这些软件包的代码全部开源,方便团队自行编译与研究。
除了自行编译以外,平台支持设备的在线安装和离线安装。详情可参考刻行时空文档中设备章节中添加设备的帮助文档。
如何添加项目成员与权限
当您已经为机器人安装好端侧软件包,下面便可以创建组织和、创建项目和添加组织成员。
关于组织与组织成员
首先创建组织的人会自动成为组织管理员。所以我们建议一开始由训练场实际负责人进行组织的创建。
当组织创建完成后,组织管理员可通过邮箱邀请管理员、采集员、标注员、审核员等加入组织。
关于项目与项目成员
如果一个训练场机器人数量不多,我们建议按照训练场为粒度来创建项目;此处是【一个训练场】对应一个项目。
如果训练场机器人较多,我们建议按照技能为粒度来创建项目;此处是【一个技能】对应一个项目。
当完成项目的创建之后,便可按不同的角色邀请人员进入项目。 项目管理员创建私有项目,将对应的成员添加到项目中(私有项目仅项目内的成员可见)
查看我的任务
管理员、采集员、标注员、审核员在首页快速查看指派给自己的任务、关注的任务。

设定字段与自动化工作流

对记录增加额外字段
在开始采集数据之前,应为记录额外创建一个字段,该字段由如下几个单选构成:
重新标注
已废弃
已审核
已标注
待标注

创建完成后,如下图所示:

此外,可以将“状态”字段进行拖拽,以调整其显示顺序
设定自动化工作流
平台支持自动化工作流,满足触发条件即可自动触发对应操作
管理员创建采集任务,指派给采集员
管理员设置项目自动化工作流

a. 当采集任务完成后,自动创建标注任务,指派给标注员,状态为“待标注”;
b. 当标注完成后,状态变更为“已标注”, 自动指派给审核员;
c. 当审核不通过且原因是标注错误时,状态变更为“重新标注”。 对于此类标签,会触发自动化,自动创建采集任务/标注任务,指派给采集员/标注员,重新处理;
d. 当审核不通过且数据质量不达标时,状态变更为“已废弃”。对于此类标签,会触发自动化,自动将该数据归档。

数据采集阶段
管理员创建采集任务
管理员在任务页中,创建采集任务,填写所需要的信息,包括但不限于:技能类型、描述、采集设备、目标记录数量、经办人、汇报人等。

统一的任务面板

创建任务弹窗
采集员执行采集任务
采集员在收到任务时,进入查看任务详情,了解任务内容,并更改任务状态为处理中;

在任务中,直接切换【设备】查看当前在线设备,使用实时可视化采集设备数据;

在实时可视化过程中,数据采集员可通过数据采集面板,给设备发送相关的开始采集、结束采集、取消采集等命令,只需一人即可完成数据采集操作。

设备接收到【开始采集】信息,即开始录制数据;
设备接收到【取消采集】信息,即丢弃上一次点击【开始采集】 ~ 【取消采集】之间的数据;
设备接收到【结束采集】信息,即停止录制数据,自动上传文件到记录中;
以此类推,直到完成任务。
采集员完成后提交审核
完成一项任务后,采集员到任务页面,将任务状态改为审核

数据标注阶段
自动化创建标注任务
当采集任务完成后,由管理员预先设置的【当采集任务完成后,自动创建标注任务,指派给标注员】即生效,系统自动创建一条标注任务,并指派给相关的标注员。
在任务页面中也可以看到对应的标注任务,等待标注人员执行任务。
标注员执行标注任务
标注员在收到任务时,进入查看任务详情,了解任务内容,并更改任务状态为处理中;

标注员点击记录进行数据回放,在可视化页面中对关键的数据片段打上标注(创建一刻);

以此类推,直到完成任务中的每一条记录的标注。
标注员完成后提交审核
完成一项任务后,标注员到任务页面,将任务状态改为审核。
数据审核阶段
审核员查看任务需求及结果;
审核员在收到任务时,进入查看任务详情,了解任务的内容、与任务关联的记录;
点击进入记录进行数据可视化回放,核对标注的内容是否准确。

审核通过与否
若标注全部准确且质量满足要求,可以直接在可视化页面中中,修改记录信息的标注状态:审核通过,继续审核任务中的下一条关联记录;
同理,若不准确,审核不通过,直接修改为审核不通过,并填写不通过的原因,以便标注员后续的标注排查,继续审核任务中的下一条关联记录;

审核不通过的数据处理
当标注任务状态变更后,由管理员预先设置的【当审核不通过,自动创建采集任务/标注任务,指派给采集员/标注员,重新处理】即生效, 同时这些记录将会被自动归档。

数据导出
通过选择“状态:已审核”的标签,即可筛选出标注完毕且符合质量要求的数据,进行导出。

展望未来
刻行时空是全球首个基于 SceneOps 理念搭建的时空数据多模态数据平台,服务包括中低速自动驾驶、服务机器人和具身智能等在内的泛机器人行业。此次分享异构机器人数据采集管理与标注的方案,旨在贡献自己的一份力量,规模化降低数据采集成本,提升具身智能数据采集质量,加快具身智能在各行业的快速落地。