当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 2022年深度学习的发展趋势与问题

2022年深度学习的发展趋势与问题

来源：51CTO.COM 2023-04-27 08:43:28 0浏览收藏

1. 规模仍然是一个重要因素

过去几年深度学习中一直保持不变的一个主题是创建更大的神经网络的驱动力。计算机资源的可用性使扩展神经网络以及专门的 AI 硬件、大型数据集以及变压器模型等规模友好架构的开发成为可能。

目前，公司正在通过将神经网络扩展到更大的规模来获得更好的结果。过去一年，DeepMind 发布了Gopher，一个 2800 亿参数的大型语言模型（LLM）；谷歌发布了拥有 5400 亿个参数的Pathways 语言模型 ( PaLM )和多达 1.2 万亿个参数的通用语言模型 ( GLaM )；微软和英伟达发布了Megatron-Turing NLG，一个 5300 亿参数的 LLM。

规模的有趣方面之一是涌现能力，其中较大的模型成功地完成了较小的模型不可能完成的任务。这种现象在 LLM 中特别有趣，随着规模的扩大，模型在更广泛的任务和基准测试中显示出有希望的结果。

然而，值得注意的是，即使在最大的模型中，深度学习的一些基本问题仍未解决（稍后会详细介绍）。

2. 无监督学习继续交付

许多成功的深度学习应用程序需要人类标记训练示例，也称为监督学习。但互联网上可用的大多数数据都没有带有监督学习所需的干净标签。数据注释既昂贵又缓慢，造成瓶颈。这就是为什么研究人员长期以来一直在寻求无监督学习的进步，在这种学习中，深度学习模型的训练不需要人工注释的数据。

近年来，这一领域取得了巨大的进步，尤其是在 LLM 领域，它们大多接受从互联网上收集的大量原始数据集的训练。虽然法学硕士在 2022 年继续取得进展，但我们也看到无监督学习技术的其他趋势越来越受欢迎。

例如，今年文本到图像的模型取得了惊人的进步。OpenAI 的DALL-E 2、谷歌的Imagen和 Stability AI 的Stable Diffusion等模型展示了无监督学习的力量。与需要注释良好的图像和描述对的旧文本到图像模型不同，这些模型使用互联网上已经存在的松散标题图像的大型数据集。他们的训练数据集的庞大规模（这仅是可能的，因为不需要手动标记）和字幕方案的可变性使这些模型能够找到文本和视觉信息之间的各种复杂模式。因此，它们在为各种描述生成图像方面更加灵活。

3. 多模态取得长足进步

文本到图像生成器还有另一个有趣的特性：它们在单个模型中组合了多种数据类型。能够处理多种模式使深度学习模型能够承担更复杂的任务。

多模态对于人类和动物的智能非常重要。例如，当你看到一棵树并听到风在它的树枝上沙沙作响时，你的大脑可以很快地将它们联系在一起。同样，当你看到“树”这个词时，你可以很快地联想到一棵树的形象，记住下雨后松树的味道，或者回忆起你以前有过的其他经历。

显然，多模态在使深度学习系统更加灵活方面发挥了重要作用。DeepMind 的Gato可能最好地展示了这一点，这是一种针对各种数据类型（包括图像、文本和本体感觉数据）进行训练的深度学习模型。Gato 在多项任务中表现出色，包括图像字幕、交互式对话、控制机械臂和玩游戏。这与旨在执行单一任务的经典深度学习模型形成对比。

一些研究人员已经提出了这样的概念，即我们只需要像 Gato 这样的系统来实现人工智能(AGI)。尽管许多科学家不同意这一观点，但可以肯定的是，多模态为深度学习带来了重要成就。