当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

来源：51CTO.COM 2023-04-27 11:53:44 0浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

最近，似乎早已把GPT抛在脑后的OpenAI又整了个新活。

在经过海量无标注视频以及一点点标注过的数据训练之后，AI终于学会了在「我的世界」（Minecraft）里制作钻石镐。

而整套流程需要一个骨灰级玩家至少20分钟的时间才能完成，总计要操作24000次。

这个东西吧，看似简单，但对AI来说却非常困难。

7岁小孩看10分钟就能学会

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

对于最简单的木镐，让人类玩家从头开始学过程并不太难。

一个死宅不到3分钟用单个视频就能教会下一个。

演示视频全长2分52秒

然而，钻石镐的制作就复杂多了。

不过即便如此，一个7岁小孩也只需看上十分钟的演示视频，就能学会了。

这个任务的难点，主要在如何挖到钻石矿。

过程大概可以概括为12个步骤：先徒手刨下像素块「木头」，再由原木合成木块，木块制作木棍，木棍制作工坊装具台，工台造木镐，木镐敲石块，石块加木棍做石镐，石镐打造炼炉，炼炉加工铁矿，铁矿熔铸铁锭，铁锭制作铁镐，铁镐去挖钻石。

现在，压力来到了AI这边。

正巧，CMU、OpenAI、DeepMind、Microsoft Research等机构自2019年起，就搞了一个相关的比赛——MineRL。

参赛选手需要自研出一个「自主从零开始打造工具、自动寻找并挖掘钻石矿」的人工智能体，而获胜条件也很简单—最快者胜出。

结果如何？

在首届MineRL比赛结束之后，「7岁小孩看10分钟视频就学会，AI用了8百万步还搞不定」，可是上了Nature杂志的。

数据虽多，但我用不上啊

「我的世界」作为沙盒建筑游戏，其玩家策略、游戏内虚拟环境的高开放性，特别适合作为各种AI模型学习、决策能力的测试场和试金石。

而且作为一款「国民级」的游戏，想在网上找到和「我的世界」相关的视频简直易如反掌。

然而，不管是搭建教程，还是炫耀自己的作品，从某种程度上来说都只是在画面上呈现出的结果。

换句话说，看视频的人只能知道up主干了个啥，干的怎么样，但没法知道是怎么干的。

更具体点，电脑屏幕上呈现出来的只是结果，而操作步骤是up主在键盘上的不停点击，以及鼠标的不停移动，这部分是看不到的。

甚至，连这个过程都是经过剪辑的，人看了估计都学不会，更别说AI了。

雪上加霜的是，不少玩家抱怨在游戏里刨木头的枯燥度，太像做作业完成任务。结果一波更新之后，有不少工具可以直接白捡……这下，连数据都不好找了。

而OpenAI想要让AI学会玩儿「我的世界」，就必须找到一个办法，能够让这些海量的未标注的视频数据派上用场。

视频预训练模型——VPT

于是，VPT应运而出。

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

论文地址：https://cdn.openai.com/vpt/Paper.pdf

这东西说新也新，但是却并不复杂，是一种半监督式的模仿学习方法。

首先，收集一波数据标注外包们玩游戏的数据，其中包含视频和键鼠操作的记录。

VPT方法概述

然后，研究人员用这些数据搞了个逆动力学模型（inverse dynamics model，IDM），可以推测出视频中每一步进行的时候，键鼠都是怎么动的。

这样一来，整个任务就变得简单多了，只需要比原来少很多的数据就可以实现目的。

用一小撮外包数据搞完IDM之后，就可以用IDM接下来标注更大规模的无标记数据集了。

基础模型训练数据对微调的影响

在训练了70000个小时以后，OpenAI的行为克隆模型就能实现各种别的模型做不到的工作了。

模型学会了怎么砍树收集木头，怎么用木头做木条，怎么用木条做桌子。而这一套事儿需要一个比较熟练的玩家操作小50秒的时间。

除了做桌子，模型还能游泳，打猎，吃东西。

甚至还有「跑跳搭」的骚操作，也就是起跳的时候脚下放个砖块或者木块，跳着跳着就能搭个柱子。这属于是骨灰级玩家的必修课了。

惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头

制作桌子（0 shot）

打猎（0 shot）

「跑跳搭」简陋版（0 shot）

而为了让模型能完成一些更精细的任务，一般还会把数据集微调成更小的规模，区分细小的方向。

OpenAI做了一项研究，展示了用VPT训练过的模型，再经过了微调之后，有多适应下游的数据集。

研究人员邀请人玩儿了10分钟的「我的世界」，用基础材料搭了个房子。他们希望通过这种方式可以加强模型执行一些游戏初期的任务的能力，比如说搭一个工作台。

当对该数据集进行完微调以后，研究人员不仅发现模型在执行初期任务时更加得心应手，还发现模型自个儿研究明白了怎么分别做出一张木制的工作台，和一张石制的工具台。

有时候，研究人员还能看到模型自己搭建简陋的避难所，搜查村子，还有抢箱子。

制作一把石镐的全过程（下方标注的时间是一名熟练玩家执行同样的任务的耗时）

制作石镐

然后我们来看看，OpenAI的专家们是怎么进行的微调。

他们使用的办法是，强化学习（RL）。

大多数RL方法通过随机探索先验来解决这些挑战，例如模型通常被激励通过熵奖励随机行动。VPT 模型应该是RL更好的先验模型，因为模拟人类行为可能比采取随机行动更有帮助。

研究人员将模型设置为收集钻石镐这类艰巨任务，这是「我的世界」中前所未有的功能，因为执行整个任务时使用本机人机界面时会变得更加困难。

制作钻石镐需要一系列漫长而复杂的子任务。为了使这项任务易于处理，研究人员为序列中的每个项目奖励智能体。

他们发现，从随机初始化（标准RL方法）训练的RL策略几乎没有获得任何奖励，从不学习收集日志，而且很少收集木棍。

与之形成鲜明对比的是，VPT模型的微调不仅可以学习如何制作钻石镐，而且在收集所有物品方面的成功率，甚至达到人类水平。

而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型。

今天关于《惊呆了！训练7万小时后，OpenAI的模型竟然学会在「我的世界」里刨木头》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于AI,模型的内容请关注golang学习网公众号！

AI 模型

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

生物识别在门禁控制领域的应用和发展

生物识别在门禁控制领域的应用和发展

上一篇: 生物识别在门禁控制领域的应用和发展

机器学习：使用 Python 进行分类

下一篇: 机器学习：使用 Python 进行分类

查看更多

最新文章

科技周边 · 人工智能 | 18分钟前 | GPT-5 多模态推理能力事实准确性模型对齐

GPT-5未来展望：发展方向与限制分析

184浏览收藏
科技周边 · 人工智能 | 23分钟前 |

AI数据挖掘工具搭配豆包使用指南

457浏览收藏
科技周边 · 人工智能 | 42分钟前 | 优化 Prompt CaktusAI 电子书大纲章节规划

CaktusAI如何制作电子书大纲？章节规划方法

168浏览收藏
科技周边 · 人工智能 | 1小时前 |

AI视频真实度测评与工具推荐

187浏览收藏
科技周边 · 人工智能 | 1小时前 | 合成性能优化混合模式 VisionStory 多轨道剪辑

VisionStory多轨道剪辑技巧详解

458浏览收藏
科技周边 · 人工智能 | 2小时前 |

DeepseekSurferSEO，提升文章排名新技巧

499浏览收藏
科技周边 · 人工智能 | 2小时前 |

AI工具批量生成内容教程：高效创作指南

460浏览收藏
科技周边 · 人工智能 | 2小时前 |

豆包AI语音设置与使用技巧分享

293浏览收藏
科技周边 · 人工智能 | 2小时前 |

通灵义码5个实用技巧分享

135浏览收藏
科技周边 · 人工智能 | 3小时前 | 淡入淡出 Clipfly 音频音量调整导出视频音量问题

Clipfly如何调整音频音量？

291浏览收藏
科技周边 · 人工智能 | 3小时前 |

通灵义码操作技巧提升攻略

448浏览收藏
科技周边 · 人工智能 | 3小时前 |

AIOverviews迁移全攻略详解

268浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

223次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

219次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

218次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

222次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

243次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码