当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

来源：51CTO.COM 2023-09-02 17:00:31 0浏览收藏

学习知识要善于思考，思考，再思考！今天golang学习网小编就给大家带来《改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果》，以下内容主要包含等知识点，如果你正在学习或准备学习科技周边，就都不要错过本文啦~让我们一起来看看吧，能帮助到你就更好了！

近年来，大规模真实世界数据的视觉预训练取得了显著的进展，在基于像素观察的机器人学习中显示出巨大的潜力。然而，这些研究在预训练数据、方法和模型方面存在差异。因此，哪种类型的数据、预训练方法和模型可以更好地辅助机器人操控仍然是一个未决的问题

基于此，ByteDance Research 团队的研究者从预训练数据集、模型架构和训练方法三个基本角度全面研究了视觉预训练策略对机器人操作任务的影响，提供了一些有利于机器人学习的重要实验结果。此外，他们提出了一种名为 Vi-PRoM 的机器人操作视觉预训练方案，它结合了自监督学习和监督学习。其中前者采用对比学习从大规模未标记的数据中获取潜在模式，而后者旨在学习视觉语义和时序动态变化。在各种仿真环境和真实机器人中进行的大量机器人操作实验证明了该方案的优越性。

论文地址：https://arxiv.org/pdf/2308.03620.pdf
项目地址：https://explore-pretrain-robot.github.io/

基准研究

预训练数据

EgoNet比ImageNet更強大。通過對比學習方法在不同的數據集（即ImageNet和EgoNet）上預訓練視覺編碼器，並觀察它們在機器人操作任務中的表現。從下表1中可以看到，在EgoNet上預訓練的模型在機器人操作任務上取得了更好的性能。顯然，機器人在操作任務方面更傾向於視頻中包含的互動知識和時序關係。此外，EgoNet中以自我為中心的自然圖像具有更多關於世界的全局背景，這意味著可以學習更豐富的視覺特徵

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

模型结构

ResNet-50 表现更好。从下表 2 中可以看出 ResNet-50 和 ResNet-101 在机器人操作任务上的表现优于 ResNet-34。此外，随着模型从 ResNet-50 增加到 ResNet-101，性能并没有提高。

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

预训练方法

根据原文的意思，需要重写的内容是：“预训练方法首选对比学习。如下表 3 所示，MoCo-v3 在 ImageNet 和 EgoNet 数据集上均优于 MAE，这证明了对比学习与掩模图像建模相比更有效。此外，通过对比学习获得的视觉语义对于机器人操作来说比通过掩模图像建模学习的结构信息更重要。” 重写后的内容：对比学习是首选的预训练方法。从表3中可以看出，MoCo-v3在ImageNet和EgoNet数据集上都优于MAE，这表明对比学习比掩模图像建模更有效。此外，对比学习所获得的视觉语义对于机器人操作来说比掩模图像建模所学习的结构信息更重要

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

算法介绍

基于上述探索，该研究提出了一种针对机器人操作的视觉预训练方案（Vi-PRoM）。该方案通过在EgoNet数据集上对ResNet-50进行预训练，来提取机器人操作的全面视觉表示。具体而言，首先采用对比学习的方式，通过自我监督从EgoNet数据集中获取人与物体的交互模式。然后，提出了两个额外的学习目标，即视觉语义预测和时序动态预测，以进一步丰富编码器的表示。下图展示了Vi-PRoM的基本流程。值得注意的是，该研究不需要手动标注标签来学习视觉语义和时序动态

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果

实验结果

该研究工作在两种仿真环境 (Franka Kitchen 和 MetaWorld) 上进行了广泛的实验。实验结果表明所提出的预训练方案在机器人操作上优于以前最先进的方法。消融实验结果如下表所示，可以证明视觉语义学习和时序动态学习对于机器人操作的重要性。此外，当两个学习目标都不存在时，Vi-PRoM 的成功率会大大下降，证明了视觉语义学习和时序动态学习之间协作的有效性。

改写后的标题：字节推出Vi-PRoM视觉预训练方案，提升机器人操作成功率和效果