机器人学习的数据层成本现状规模定律在机器人领域发挥作用催生出几年前难以想象的能力。端到端模型简化了机器人软件但让数据收集到训练的工作变难。大语言模型LLM团队借助成熟数据基础设施提升性能机器人团队却在缺乏此类设施的情况下试图扩张规模。大多数团队从头构建数据工具因为现有基础设施不适合驱动机器人学习的多速率、多模态数据。从数据收集到训练常见操作难度和耗时超出应有水平这种在迭代速度、工程聚焦度和 GPU 利用率方面累积的成本被称为“数据层成本”。降低这一成本是在竞争中加速发展和实现规模扩张的关键。从架构上看数据层负责数据的存储、建模和访问。物理人工智能Physical AI的数据层不成熟成本在整个流程各阶段都明显。若从事机器人学习开发或投资本文将揭示成本来源从评估回溯到收集展示需求如何向上游传导以及为何成本随数据规模、数据源多样性和数据策划复杂度增加而累积。策略评估难题全面的“评估”体系是 LLM 团队快速进步的核心但对机器人行为评估困难产生连锁反应。机器人团队对训练好的策略进行小规模实际评估需花费数小时甚至数天进行机器人试验还要精心设计和操作依据全面、可重复且快速的评估实现快速进步不可行。团队只能依赖代理指标如奖励模型、3D 重建质量或轨迹平滑度估计但这些指标只能表明单个片段或样本好坏无法说明能否产生更优策略。因实际评估运行难度大深入研究评估很重要。许多重要决策来自研究人员他们观察评估过程凭直觉决定下一步行动。从数据基础设施角度评估与数据收集相似需记录模型输入、输出、目标及元数据。研究人员审查运行结果按指标汇总深入研究特定记录。将运行追溯到训练数据需在互不关联的工具和格式间手动排查阻碍导致迭代时间变长无法将洞察反馈到训练更优策略中。模型训练挑战训练期间的样本构建机器人行为学习与其他机器学习任务有共同基础但模型随时间输出动作增加了数据层复杂度主要体现在样本构建和视频压缩方面。训练大型模型时要快速为 GPU 提供数据以实现最大利用率。研究人员通过选择数据和采样方式引导模型行为常将多个数据集组合使用加权组合甚至为每个时间步设置采样概率或损失权重。以训练视觉 - 语言 - 动作模型VLA为例人形机器人模型处理多个视频流、关节位置和速度、抓取器状态及语言指令。数据集中每个批次训练样本从片段的单个时间步开始基本 VLA 模型样本包括摄像头帧、机器人状态和未来动作所有输入需时间对齐易出现细微错误。简单按行获取数据会下载许多不用的项高效数据加载器需“列感知”避免不必要的数据传输导致 GPU 闲置。采样模式取决于模型架构且不断演变复杂采样模式增加细微错误风险降低模型性能。训练期间的视频解码视频占总数据集大小 90% 以上编码为视频可利用时间冗余节省存储空间但增加了复杂性。大多数视频编解码器通过“图像组”GOP结构利用时间冗余GOP 以关键帧开始后续为增量帧实现压缩。模型需要完整图像帧解码增量帧需从最近关键帧开始解码其间所有帧随机访问单个帧平均需解码多帧。关键权衡在于 GOP 大小大 GOP 压缩好小 GOP 随机访问快。LeRobot 默认使用 2 的 GOP优先考虑随机访问但牺牲压缩率。具有非均匀历史的策略涉及多个摄像头每个样本需解码多帧非均匀间隔意味着帧可能在不同 GOP 中数据获取逻辑需处理视频。数据加载器的复杂性导致迭代速度变慢构建快速且正确的数据加载器困难大型数据集更难。很少有团队接受低 GPU 利用率会放弃灵活性引入缓慢的数据导出任务影响研究人员试验超参数和选择训练数据的能力使数据集策划和模型改进更困难。数据集策划要点数据质量快速提供数据给 GPU 重要数据质量也关键。数据集策划确保数据分布合适优化模型性能。HuggingFace 的机器人折叠项目发现精心挑选片段可大幅提高成功率算法改进效果相对较小。但系统改进数据组成不易验证改进效果过程缓慢。真实数据存在传感器数据流缺失、模式不匹配和记录间隙等问题轨迹分析可筛选数据但机器人数据分散时分析困难。大多数团队进行可视化审查学习模型提供更强大分析方法如奖励模型和估计轨迹贡献的方法但运行成本高旨在比人工审查更具扩展性。提高数据质量最有效方法之一是改进数据收集过程研究人员可通过审查数据发现问题改进数据收集设置比下游筛选方法更有效。数据集混合数据集组成对模型性能影响大包括选择数据集、权衡任务 - 机器人组合和强调或弱化方面。Physical Intelligence 的 pi0 在多种数据混合上预训练每个任务 - 机器人组合加权。2024 年 CoRL 最佳论文表明增加任务多样性比增加演示更重要数据集组合方式可能比数据量更关键。模拟数据生成成本低易在训练组合中占主导但模拟与现实有差距确定合适比例需实验。训练指标可提供数据集组合有效性信号但数据加载器缺乏灵活性每次新组合需离线过滤、合并、导出和指向新副本增加迭代难度阻碍系统实验。理想情况下数据集混合应通过查询表达训练数据加载器应能直接提供样本尝试新变体只需更改参数。借助注释和后处理进行增强基本远程操作数据在记录和训练间处理相对简单团队添加任务注释计算时间对齐的状态和动作列进行质量检查。但运行更强大的策划方法需大量计算生成派生数据并集成到数据集中。端到端模型简化感知堆栈但需要大量训练数据迫使团队寻找更便宜、更具扩展性的数据源。像 Sunday Robotics 和 Generalist AI 等公司使用人类数据收集员生成演示将这些数据转化为可训练数据需复杂处理复杂性从机器人推理转移到数据管道中。来自头戴式摄像头的纯第一人称视角视频需要更多处理Meta 的 HOT3D 数据集提供相关数据。团队还使用 3D 重建增强现有数据集如特斯拉使用专有技术生成合成变体。所有处理需读取源数据、计算派生信号并写回结果端到端学习移除的复杂性在数据管道中重新出现若数据层无法处理多速率、多模态数据管理和调试管道的复杂性将增加。记录、摄取和规范化问题每个机器人和数据收集设置不同团队会构建定制解决方案。远程操作与特定机器人紧密耦合云推理或实时强化学习记录架构不同数据可能不触及机器人本地存储构建这些系统决定了下游可用数据。挑战始于数据摄取需将数据规范化为可处理形式。即使在单个团队内数据模式也会随时间变化不同时间收集的数据结构不同但都需在训练中协同工作。大规模上团队将多个机器人配置的数据组合如 Open X - Embodiment 需要多个自定义数据集转换构建器转换大型数据集可能需要数天。将数据转换为通用可查询形式是下游步骤的基础脆弱的管道在跨栈调试时令人头疼团队需要数据处理框架和通用格式避免引入新数据破坏现有数据。有先例的权衡在分析领域团队为不同用户维护独立系统数据湖存储数据但缺乏结构数据仓库提供快速查询但有严格模式团队需进行 ETL 操作并导出数据创建多个副本。湖仓一体架构解决了这一问题一份数据可被多种用户访问。机器人数据基础设施面临类似权衡基于文件的日志格式适合记录和回放但不适合大规模查询和训练早期规范化数据可快速训练但更改成本高按主题表的方法允许后期规范化但组合系统时复杂性增加团队最终维护同一数据的多个表示形式并建立转换管道。物理人工智能数据每个阶段都需要可视化检查若数据层不支持可视化会成为新的有格式要求和转换管道的用户。每种方法解决部分问题但也产生阻碍随着团队扩大数据集规模、增加数据源多样性和提高数据策划复杂度阻碍会累积。数据层成本影响不成熟的数据层明显成本是工程时间但真正成本是无法开展的工作。如尝试新数据集组合速度慢一些策划方法无法大规模应用转换错误在训练时未被发现评估失败追溯数据收集问题时间长在错误基础上研究困难。在机器人学习中通过闭环操作构建模型获胜团队将更快、更精确地运行闭环不会在高成本的数据层上工作。Rerun 花数年构建解决这些问题的组件即将展示成果。若在本文中看到熟悉问题可了解更多。更多文章推荐机器人学习的新数据层随着 0.32 SDK 版本发布Rerun 成为物理数据统一数据层涵盖多速率、多模态机器人数据的可视化、查询、转换和训练本文介绍其架构、新功能及商业数据目录和存储引擎 Rerun Hub。Rerun 0.27 - 灵活的变换、Python 服务器管理和改进的时间控制Rerun 0.27 包括实验性的坐标框架层次结构、用于服务器管理的 Python API、3D 视图的蓝图控制和时间面板改进。Rerun 0.26 - ROS2 反射、变换性能等Rerun 0.26 带来重大性能改进、基于反射的 ROS2 MCAP 支持、实验性镜头以及在查看器和 SDK 方面的持续优化。相关信息订阅发布说明第一时间了解新功能。产品包括概述、Rerun SDK、Rerun Hub、定价、更新日志、Web 查看器。资源有文档、快速入门、示例、API 参考、博客。社区涉及 GitHub、Discord、X / Twitter、LinkedIn、YouTube。公司有职业机会、团队、媒体资料包、联系我们、隐私政策。投资方包括 Costanoa Ventures、Point Nine、Seedcamp、Sunflower。