当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

来源：51CTO.COM 2024-04-07 16:36:32 0浏览收藏

IT行业相对于一般传统行业，发展更新速度更快，一旦停止了学习，很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习，精进自己的技术，尤其是初学者。今天golang学习网给大家整理了《DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全》，聊聊，我们一起来看看吧！

谷歌在2月之后突然切换到了996模式，不到一个月的时间抛出了5个模型。

而DeepMind CEO Hassabis本人也是四处为自家的产品站台，曝出了很多幕后的开发内幕。

在他看来，虽然还需要技术突破，但是现在人类通往AGI之路已经出现。

而DeepMind和谷歌Brain的合并，标志着AI技术发展已经进入了新的时代。

问：DeepMind一直站在技术的前沿。比如像AlphaZero这样系统，内部的智能体能够经过一系列思考，达成最终目标。这是否意味着大型语言模型（LLM）也能够加入这种研究的行列呢？

Hassabis认为，大型模型有巨大的潜力，需要进一步优化，以提高其预测精度，从而建立更可靠的世界模型。尽管这一步骤至关重要，但这可能并不足以构建一个完整的通用人工智能（AGI）系统。

在此基础上，我们正在开发类似AlphaZero的规划机制，通过世界模型来制定实现具体世界目标的计划。

这包括将不同的思维或推理链条串联起来，或者利用树搜索来探索广阔的可能性空间。

这些都是目前我们的大型模型所缺失的环节。

问：从纯粹的强化学习（RL）方法出发，是否有可能直接迈向 AGI 呢？

看来，大型语言模型会构成基础先验知识，然后在此基础上进行进一步研究。

理论上，完全采用开发AlphaZero的方式是有可能的。

DeepMind和RL社区的一些人正在致力于这一方向，他们从零开始，不依赖任何先验知识或数据，完全构建新的知识体系。

我认为，利用现有的世界知识——例如网络上的信息和我们已经收集的数据——将是实现AGI的最快途径。

我们现在已经有了能吸收这些信息的可扩展算法——Transformers，我们完全可以利用这些已有的模型作为先验知识来进行预测和学习。

因此，我认为，最终的AGI系统一定将包括现在的大模型作为解决方案的一部分。

但光有大模型还不足够，我们还需要在其上加入更多的规划和搜索的能力。

问：面对这些方法所需的巨大计算资源，我们怎样才能突破呢？

即使是AlphaGo这样的系统，由于需要在决策树的每个节点上进行计算，也是相当昂贵的。

我们致力于开发样本高效的方法和重复利用现有数据的策略，例如经验回放（experience replay），以及探索更高效的方法。

实际上，如果世界模型足够好，你的搜索就可以更高效。

以Alpha Zero为例，它在围棋和象棋等游戏中的表现超过了世界冠军水平，但其搜索的范围远小于传统的暴力搜索方法。

这表明，改进模型可以使搜索更高效，从而达到更远的目标。

但在定义奖励函数和目标时，如何确保系统朝着正确的方向发展，将是我们面临的挑战之一。

谷歌为什么半个月能出5个模型？

问：你能谈谈为什么Google和DeepMind同时研究这么多不同的模型吗？

因为我们一直在进行基础研究，我们有大量的基础研究工作，涵盖各种不同的创新和方向。

这意味着，我们同时在构建主要的模型轨道——核心Gemini模型，同时也有许多更具探索性的项目正在进行。

当这些探索项目取得一些成果时，我们会将其融入主分支，进入下一版本的 Gemini，这就是为什么你会看到1.5紧随1.0之后发布，因为我们已经在研究下一个版本了，因为我们有多个团队在不同的时间尺度上工作，相互之间进行循环，这就是我们能够持续进步的方式。

我希望这将成为我们的新常态，以这种高速度发布产品，当然，同时还要非常负责任，牢记发布安全的模型是我们的第一要务。

问：我想问的是你们最近的一次重大发布，即Gemini 1.5 Pro，你们的新 Gemini Pro 1.5模型可以处理高达一百万个token。你能解释一下这意味着什么以及为什么上下文窗口是一个很重要的技术指标吗？

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

是的，这非常重要。长上下文可以被视为模型的工作记忆，即它一次可以记住并处理多少数据。

你拥有的上下文越长，它的准确性也很重要，从长上下文中回忆事物的精确度也同样重要，你就可以考虑到更多的数据和上下文。

因此，一百万意味着你可以处理巨大的书籍、完整的电影、大量的音频内容，比如完整的代码库。

如果你有一个更短的上下文窗口，比如只有十万这个级别，那么你只能处理其中的片段，模型就无法对你感兴趣的整个语料库进行推理或检索。

因此，这实际上为所有类型的新用例提供了可能性，这些是小上下文无法完成的。

问：我从人工智能研究人员那里听说，这些大上下文窗口的问题是它们非常消耗计算资源。比如，如果你上传了一整部电影或一本生物学教科书，并询问关于它的问题，就需要更多的处理能力来处理所有这些并做出回应。如果很多人都这样做，成本会很快增加。Google DeepMind是否提出了一些巧妙的创新来使这些巨大的上下文窗口更高效，还是Google只是承担了所有这些额外计算的成本？

是的，这是一个全新的创新，因为如果没有创新，你无法拥有这么长的上下文。

但这仍然需要花很高昂的计算成本，所以我们正在努力优化。

如果你用满了整个上下文窗口的话。上传数据的初始处理可能需要几分钟。

但如果你考虑到这就像是在一两分钟内观看整部电影或阅读整部《战争与和平》，那么这还不算太坏，然后你就能回答任何关于它的问题了。

然后我们想确保的是，一旦你上传并处理了文档、视频或音频，那么随后的问题和回答应该更快。

这就是我们目前正在努力的方向，我们非常有信心能将其缩短到几秒钟的时间内。

问：你说你们已经测试了高达一千万token的系统了，效果如何？

在我们的测试中效果非常好。因为计算成本还比较高，目前还不实际提供服务。

但在精确度和回忆方面，它的表现非常出色。

问：我想问你关于Gemini的问题，Gemini能做什么特别的事情，之前的Google语言模型或其他模型做不到的？

嗯，我认为Gemini，尤其是1.5版本的激动人心之处在于其天生的多模态特性，我们从头开始构建它，使其能够处理任何类型的输入：文本、图像、代码、视频。

如果你结合长上下文，你就会看到它的潜力。比如，你可以想象你在听一整场讲座，或者有一个重要的概念你想了解，你想快进到那里。

所以现在我们可以将整个代码库放入上下文窗口中，这对于新程序员的入门非常有用。假设你是星期一开始上班的新工程师，通常你需要去查阅数以十万计的代码行，你如何访问某个函数？

你需要去询问代码库的专家。但现在实际上你可以使用Gemini作为编码助手，以这种有趣的方式。它会返回一些摘要，告诉你代码的重要部分在哪里，你就可以开始工作了。

我认为拥有这种能力非常有帮助，使你的日常工作流程更加高效。

我非常期待看到Gemini在像slack这样的东西中被整合进去后的表现，以及你的一般工作流程。未来的工作流程是什么样的？我认为我们才刚刚开始体会到变化。

谷歌开源的首要任务是保证安全

问：我现在想转向 Gemma，你们刚刚发布的一系列轻量级开源模型。今天，是否通过开源发布基础模型，或者将它们保持封闭，似乎是最具争议的话题之一。到目前为止，Google一直将其基础模型保持为封闭源。为什么现在选择开源？你如何看待这样一种批评，即通过开源使基础模型可用，增加了它们被恶意行为者使用的风险和可能性？

是的，我实际上公开讨论了这个问题很多次。

其中一个主要担忧是，通常来说，开源和开放研究显然是有益的。但这里有一个特定的问题，那就是与AGI和AI技术相关的问题，因为它们是通用的。

一旦你发布了它们，恶意行为者就可能将它们用于有害的目的。

当然，一旦你开源了某样东西，你就没有真正的办法再收回来了，不像API访问之类的，如果发现下游有之前没人考虑到的有害用例，你可以直接切断访问。

我认为这意味着对于安全性、鲁棒性和负责任性的门槛甚至更高。随着我们接近 AGI，它们将拥有更强大的能力，所以我们必须更加小心，考虑它们可能被恶意行为者用于什么。

我还没有从那些支持开源的人那里听到一个好的论点，比如开源的极端主义者，他们中有很多是我在学术界尊敬的同事，他们如何回答这个问题，——符合防范开源模型对于会让更多的恶意行为者的访问模型的问题？

我们需要更多地考虑这些问题，因为这些系统变得越来越强大。

问：那么，为什么Gemma没有让你担忧这个问题呢？