当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

来源:51CTO.COM 2024-04-07 16:36:32 0浏览 收藏

IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全》,聊聊,我们一起来看看吧!

谷歌在2月之后突然切换到了996模式,不到一个月的时间抛出了5个模型。

而DeepMind CEO Hassabis本人也是四处为自家的产品站台,曝出了很多幕后的开发内幕。

在他看来,虽然还需要技术突破,但是现在人类通往AGI之路已经出现。

而DeepMind和谷歌Brain的合并,标志着AI技术发展已经进入了新的时代。

问:DeepMind一直站在技术的前沿。比如像AlphaZero这样系统,内部的智能体能够经过一系列思考,达成最终目标。这是否意味着大型语言模型(LLM)也能够加入这种研究的行列呢?

Hassabis认为,大型模型有巨大的潜力,需要进一步优化,以提高其预测精度,从而建立更可靠的世界模型。尽管这一步骤至关重要,但这可能并不足以构建一个完整的通用人工智能(AGI)系统。

在此基础上,我们正在开发类似AlphaZero的规划机制,通过世界模型来制定实现具体世界目标的计划。

这包括将不同的思维或推理链条串联起来,或者利用树搜索来探索广阔的可能性空间。

这些都是目前我们的大型模型所缺失的环节。

问:从纯粹的强化学习(RL)方法出发,是否有可能直接迈向 AGI 呢?

看来,大型语言模型会构成基础先验知识,然后在此基础上进行进一步研究。

理论上,完全采用开发AlphaZero的方式是有可能的。

DeepMind和RL社区的一些人正在致力于这一方向,他们从零开始,不依赖任何先验知识或数据,完全构建新的知识体系。

我认为,利用现有的世界知识——例如网络上的信息和我们已经收集的数据——将是实现AGI的最快途径。

我们现在已经有了能吸收这些信息的可扩展算法——Transformers,我们完全可以利用这些已有的模型作为先验知识来进行预测和学习。

因此,我认为,最终的AGI系统一定将包括现在的大模型作为解决方案的一部分。

但光有大模型还不足够,我们还需要在其上加入更多的规划和搜索的能力。

问:面对这些方法所需的巨大计算资源,我们怎样才能突破呢?

即使是AlphaGo这样的系统,由于需要在决策树的每个节点上进行计算,也是相当昂贵的。

我们致力于开发样本高效的方法和重复利用现有数据的策略,例如经验回放(experience replay),以及探索更高效的方法。

实际上,如果世界模型足够好,你的搜索就可以更高效。

以Alpha Zero为例,它在围棋和象棋等游戏中的表现超过了世界冠军水平,但其搜索的范围远小于传统的暴力搜索方法。

这表明,改进模型可以使搜索更高效,从而达到更远的目标。

但在定义奖励函数和目标时,如何确保系统朝着正确的方向发展,将是我们面临的挑战之一。

谷歌为什么半个月能出5个模型?

问:你能谈谈为什么Google和DeepMind同时研究这么多不同的模型吗?

因为我们一直在进行基础研究,我们有大量的基础研究工作,涵盖各种不同的创新和方向。

这意味着,我们同时在构建主要的模型轨道——核心Gemini模型,同时也有许多更具探索性的项目正在进行。

当这些探索项目取得一些成果时,我们会将其融入主分支,进入下一版本的 Gemini,这就是为什么你会看到1.5紧随1.0之后发布,因为我们已经在研究下一个版本了,因为我们有多个团队在不同的时间尺度上工作,相互之间进行循环,这就是我们能够持续进步的方式。

我希望这将成为我们的新常态,以这种高速度发布产品,当然,同时还要非常负责任,牢记发布安全的模型是我们的第一要务。

问:我想问的是你们最近的一次重大发布,即Gemini 1.5 Pro,你们的新 Gemini Pro 1.5模型可以处理高达一百万个token。你能解释一下这意味着什么以及为什么上下文窗口是一个很重要的技术指标吗?

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

是的,这非常重要。长上下文可以被视为模型的工作记忆,即它一次可以记住并处理多少数据。

你拥有的上下文越长,它的准确性也很重要,从长上下文中回忆事物的精确度也同样重要,你就可以考虑到更多的数据和上下文。

因此,一百万意味着你可以处理巨大的书籍、完整的电影、大量的音频内容,比如完整的代码库。

如果你有一个更短的上下文窗口,比如只有十万这个级别,那么你只能处理其中的片段,模型就无法对你感兴趣的整个语料库进行推理或检索。

因此,这实际上为所有类型的新用例提供了可能性,这些是小上下文无法完成的。

问:我从人工智能研究人员那里听说,这些大上下文窗口的问题是它们非常消耗计算资源。比如,如果你上传了一整部电影或一本生物学教科书,并询问关于它的问题,就需要更多的处理能力来处理所有这些并做出回应。如果很多人都这样做,成本会很快增加。Google DeepMind是否提出了一些巧妙的创新来使这些巨大的上下文窗口更高效,还是Google只是承担了所有这些额外计算的成本?

是的,这是一个全新的创新,因为如果没有创新,你无法拥有这么长的上下文。

但这仍然需要花很高昂的计算成本,所以我们正在努力优化。

如果你用满了整个上下文窗口的话。上传数据的初始处理可能需要几分钟。

但如果你考虑到这就像是在一两分钟内观看整部电影或阅读整部《战争与和平》,那么这还不算太坏,然后你就能回答任何关于它的问题了。

然后我们想确保的是,一旦你上传并处理了文档、视频或音频,那么随后的问题和回答应该更快。

这就是我们目前正在努力的方向,我们非常有信心能将其缩短到几秒钟的时间内。

问:你说你们已经测试了高达一千万token的系统了,效果如何?

在我们的测试中效果非常好。因为计算成本还比较高,目前还不实际提供服务。

但在精确度和回忆方面,它的表现非常出色。

问:我想问你关于Gemini的问题,Gemini能做什么特别的事情,之前的Google语言模型或其他模型做不到的?

嗯,我认为Gemini,尤其是1.5版本的激动人心之处在于其天生的多模态特性,我们从头开始构建它,使其能够处理任何类型的输入:文本、图像、代码、视频。

如果你结合长上下文,你就会看到它的潜力。比如,你可以想象你在听一整场讲座,或者有一个重要的概念你想了解,你想快进到那里。

所以现在我们可以将整个代码库放入上下文窗口中,这对于新程序员的入门非常有用。假设你是星期一开始上班的新工程师,通常你需要去查阅数以十万计的代码行,你如何访问某个函数?

你需要去询问代码库的专家。但现在实际上你可以使用Gemini作为编码助手,以这种有趣的方式。它会返回一些摘要,告诉你代码的重要部分在哪里,你就可以开始工作了。

我认为拥有这种能力非常有帮助,使你的日常工作流程更加高效。

我非常期待看到Gemini在像slack这样的东西中被整合进去后的表现,以及你的一般工作流程。未来的工作流程是什么样的?我认为我们才刚刚开始体会到变化。

谷歌开源的首要任务是保证安全

问:我现在想转向 Gemma,你们刚刚发布的一系列轻量级开源模型。今天,是否通过开源发布基础模型,或者将它们保持封闭,似乎是最具争议的话题之一。到目前为止,Google一直将其基础模型保持为封闭源。为什么现在选择开源?你如何看待这样一种批评,即通过开源使基础模型可用,增加了它们被恶意行为者使用的风险和可能性?

是的,我实际上公开讨论了这个问题很多次。

其中一个主要担忧是,通常来说,开源和开放研究显然是有益的。但这里有一个特定的问题,那就是与AGI和AI技术相关的问题,因为它们是通用的。

一旦你发布了它们,恶意行为者就可能将它们用于有害的目的。

当然,一旦你开源了某样东西,你就没有真正的办法再收回来了,不像API访问之类的,如果发现下游有之前没人考虑到的有害用例,你可以直接切断访问。

我认为这意味着对于安全性、鲁棒性和负责任性的门槛甚至更高。随着我们接近 AGI,它们将拥有更强大的能力,所以我们必须更加小心,考虑它们可能被恶意行为者用于什么。

我还没有从那些支持开源的人那里听到一个好的论点,比如开源的极端主义者,他们中有很多是我在学术界尊敬的同事,他们如何回答这个问题,——符合防范开源模型对于会让更多的恶意行为者的访问模型的问题?

我们需要更多地考虑这些问题,因为这些系统变得越来越强大。

问:那么,为什么Gemma没有让你担忧这个问题呢?

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

是的,当然,因为你会注意到,Gemma只提供轻量级版本,所以它们相对较小。

实际上,较小的尺寸对开发者更有用,因为通常个人开发者、学者或小团队希望在他们的笔记本电脑上快速工作,所以它们为此进行了优化。

因为它们不是前沿模型,它们是小型模型,我们觉得放心,因为这些模型的能力经过了严格的测试,我们非常清楚它们的能力,这种尺寸的模型没有大风险。

DeepMind为什么要和Google Brain合并

问:去年,当Google Brain和DeepMind合并时,我在 AI 行业中认识的一些人感到担忧。他们担心,Google历来给 DeepMind相当大的自由度,让它工作在它认为重要的各种研究项目上。

而随着合并,DeepMind的可能会不得不被转向到对Google短期内有益的事情,而不是这些较长期的基础研究项目。自从合并以来,已经一年了,对 Google 的短期利益和可能的长期 AI 进步之间的这种紧张关系是否改变了你可以工作的内容?

是的,你所提到的这第一年一切都非常好。一个原因是,我们认为现在是合适的时机,而且我从研究者的角度认为是时候了。

也许让我们回溯五年或六年,当我们做像AlphaGo这样的事情时,在AI领域,我们一直在探索性地研究如何达到 AGI,需要什么突破,应该押注什么,以及在那种情况下,你想做一系列广泛的事情,所以我认为那是一个非常探索性的阶段。

我认为在过去的两三年里,AGI的主要组成部分将是什么已经变得清晰,正如我之前提到的,虽然我们仍然需要新的创新。

DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全

我认为你刚刚看到了Gemini1.5的长上下文,我认为还有很多类似的新创新将是必需的,所以基础研究仍然像以往一样重要。

但现在还需要在工程方向努力,即扩大和利用已知技术,并将其推向极限,需要在规模上进行非常有创造性的工程,从原型机级别的硬件到数据中心规模,以及涉及到的效率问题。

还有一个原因是,如果在五六年前制造一些AI驱动的产品,将不得不构建与AGI研究轨道完全不同的AI。

只能为特定产品做特殊场景下的任务,属于一种定制的AI,「手工制作的AI」。

但今天情况不一样了,为产品做AI,现在最好的方式是使用通用AI技术和系统,因为它们已经达到了足够的复杂性和能力水平。

所以实际上这是一个融合点,所以大家现在可以看到,研究轨道和产品轨道已经融合在一起了。

比如我们现在要做一个AI语音助手,与之相对的是一个真正理解语言的聊天机器人,它们现在是一体的,所以现在不需要考虑那种二分法或者协调紧张的关系了。

第二点个原因是,研究与现实应用之间有紧密的反馈循环实际上对研究非常有利。

因为产品能让你真正了解你的模型表现如何的方式,你可以有学术指标,但真正的测试是当数百万用户使用你的产品时,他们是否觉得它有用,是否觉得它有帮助,是否对世界有益。

你显然会得到大量的反馈,然后这将导致底层模型的非常快速改进,所以我认为我们现在正处于这个非常非常令人兴奋的阶段。

文中关于数据,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
win10重装系统后网络适配器不见了怎么解决?win10重装系统后网络适配器不见了怎么解决?
上一篇
win10重装系统后网络适配器不见了怎么解决?
Springboot如何实现邮件任务
下一篇
Springboot如何实现邮件任务
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    7次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    7次使用
  • AI音乐实验室:一站式AI音乐创作平台,助力音乐创作
    AI音乐实验室
    AI音乐实验室(https://www.aimusiclab.cn/)是一款专注于AI音乐创作的平台,提供从作曲到分轨的全流程工具,降低音乐创作门槛。免费与付费结合,适用于音乐爱好者、独立音乐人及内容创作者,助力提升创作效率。
    6次使用
  • SEO标题PixPro:AI驱动网页端图像处理平台,提升效率的终极解决方案
    PixPro
    SEO摘要PixPro是一款专注于网页端AI图像处理的平台,提供高效、多功能的图像处理解决方案。通过AI擦除、扩图、抠图、裁切和压缩等功能,PixPro帮助开发者和企业实现“上传即处理”的智能化升级,适用于电商、社交媒体等高频图像处理场景。了解更多PixPro的核心功能和应用案例,提升您的图像处理效率。
    6次使用
  • EasyMusic.ai:零门槛AI音乐生成平台,专业级输出助力全场景创作
    EasyMusic
    EasyMusic.ai是一款面向全场景音乐创作需求的AI音乐生成平台,提供“零门槛创作 专业级输出”的服务。无论你是内容创作者、音乐人、游戏开发者还是教育工作者,都能通过EasyMusic.ai快速生成高品质音乐,满足短视频、游戏、广告、教育等多元需求。平台支持一键生成与深度定制,积累了超10万创作者,生成超100万首音乐作品,用户满意度达99%。
    9次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码