当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 清华大学AIR张亚勤院士亮相第九届毫末AI DAY，分享智能驾驶AI大模型技术最新进展

清华大学AIR张亚勤院士亮相第九届毫末AI DAY，分享智能驾驶AI大模型技术最新进展

来源：机器之心 2023-10-12 15:12:46 0浏览收藏

golang学习网今天将给大家带来《清华大学AIR张亚勤院士亮相第九届毫末AI DAY，分享智能驾驶AI大模型技术最新进展》，感兴趣的朋友请继续看下去吧！以下内容将会涉及到等等知识点，如果你是正在学习科技周边或者已经是大佬级别了，都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家！

生成式大模型的出现，以GPT为代表，再次推动了人工智能技术的发展，AI技术正在经历从判别式到生成式的技术范式变革。同时，引入生成式、预训练和多模态等大模型技术，也为自动驾驶技术向成熟的无人化方向提供了可能性

来自全球领先的人工智能研究机构清华智能产业研究院（AIR）与国内领先的自动驾驶AI技术公司毫末智行，在对大模型的技术趋势上及应用上有着惊人的一致判断。同时，双方也已经在基于数据驱动决策优化方向上展开深入探索，共同推动全方位、多层次的产学研深度合作，加速AI技术在自动驾驶领域的落地应用。

2023年10月11日，中国工程院院士、清华大学教授、清华智能产业研究院（AIR）院长张亚勤现场出席毫末智行举办的第九届HAOMO AI DAY，发表了题为《智能驾驶新进展——Big Model, Generative Al and Intelligent Driving》的主题演讲，分享了他对生成式AI大模型应用于自动驾驶技术的最新思考，以及介绍了清华AIR在构建Real2Sim2Real基础模型平台、自动驾驶仿真平台等最新成果。

以下是张亚勤院士的演讲全文：

这么美丽的天气，这么漂亮的地方，很高兴参加HAOMO AI DAY，也感谢张凯董事长和维灏的邀请。

今天是第九届HAOMO AI DAY，首先我要祝贺毫末在不到4年的时间里取得了很大的成绩，特别是走出一条自己的路。我印象当中毫末是最先在自动驾驶方面发布了生成式大模型DriveGPT，也很快地走向规模化，在这么短的时间就能够成为自动驾驶领域的领军企业。

今天我想谈一下在智能驾驶方面新的进展，这些年我一直用同样的题目，但是每一次会发现里面的内容都完全不同，特别是最近生成式AI出来之后，对自动驾驶有了很大的推进。

我们一直讲新的“四化”——网联化、智能化、共享化、电动化，其中最重要的是两化——电动化、智能化。电动化可以理解成是新能源，现在中国已经是全球最活跃、最大的新能源市场，不管是在用户规模或者出口规模都是全球第一，这是新汽车的上半场。下半场最重要的是智能驾驶，未来5-10年全球竞争的热点和制高点就是自动驾驶。人工智能是自动驾驶核心的技术驱动力，毫末从一开始成立就以AI作为公司的技术引擎，所以HAOMO AI DAY十分重要。

为什么这么多企业都在涉足智能驾驶领域？包括传统汽车制造商、新兴力量和高科技企业都纷纷进入自动驾驶市场。实际上，这背后存在着许多技术挑战。从人工智能的角度来看，自动驾驶是一个极其复杂的问题，需要大量的计算能力和新算法，是人工智能领域中最具挑战性的垂直领域之一。此外，自动驾驶也是聚合智能、边缘智能和自主智能的交汇点。从最近的测试视频中可以看到，自动驾驶面临着许多复杂场景和变化，确实存在许多挑战

但是，我认为自动驾驶是完全可以实现的，其中有一些关键的问题，有一些是市场的因素，有一些是非市场的力量。市场的因素包括技术是否可行？用户有没有真正需求？产业生态及商业模式。非市场因素也很重要，需要行业有技术突破，也需要有政府产业方面的支持，以及与政策法规突破。

在技术方面，一开始很多人讨论无人驾驶的可行性，特别是L4以上的可行性。我一开始就认为它是可行的。最近我看到了一些数据，无人驾驶的安全性比有人驾驶高出大约10倍。去年我还在说是3倍，今年已经增加到了10倍。这表明技术突破已经实现。在商业化的路线图上，目前有各种各样的方式。有些是采用单车智能，有些是车路协同，还有逐步推进、跳跃式的路线，以及开源和封闭的路线。不同的企业都在探索不同的路线图，没有哪一种是完全正确的。产业正在用不同的方式尝试自动驾驶。我知道毫末选择了逐步推进的方式，我认为这些都很好，大家用不同的方式去探索

最近在AI方面有很多新的突破。我们看到新的算法、新的框架，特别是预训练、多模态、多监督学习、大模型成为主流。在Transformer之前，ResNeT曾经是作为非常广泛应用的视觉算法框架，我之所以特别提到ResNeT，这个算法其实是中国的年轻科学家在中国完成的，因此中国科学家对于人工智能有着很大的贡献。我听到很多的说法，认为AI的核心主要是从欧洲来的，基本的理论是从那里来的，但是中国科学家在人工智能领域也做出了很多的贡献。

重写后的内容：在大模型中，突破技术限制是非常重要的。在过去的六七十年中，有三个重要的理论被广泛应用：摩尔定律、冯·诺依曼架构和香农三定律。然而，现在这些理论都面临着被突破的挑战。如果不能突破这些限制，大模型将无法实现。为了实现突破，我们需要新的传感方式和感知方式，还需要在计算机体系架构方面有所突破，包括芯片新框架等。目前，主流的Transformer和CNN卷积神经网络也有所不同。当前，数字技术产业主要基于硅片计算，但未来可能会涉及生物科学、光计算和量子计算等领域

当前的关键点是大型模型所带来的生成式人工智能。过去，人工智能主要关注分类，即判别式人工智能。而现在，我们可以完全生成新的内容创意和数据创意，也可以在场景方面有许多新的创意。接下来，我将简要介绍一下在这方面的工作

大模型走向了新方向。首先是多模态，不仅仅是自然语言、图像、视频，也包括传感信号、激光雷达等从所有车机发出的物理感知、生物感知信号。大家看到GPT-4大模型就是多模态的，其功能很强大，不过效率很低，大致比人大脑的计算和决策效率至少要低1000倍，所以还需要有新的算法，我觉得5年之后就会有新的算法出现。其次是自主智能，可以去自动的完成任务，包括边缘计算，把很复杂的大模型怎么样放在手机、汽车、机器人边缘上，还有具身智能和物理世界连在一块，我认为自动驾驶是最重要的具身智能场景。未来是脑机智能阶段，大模型将面临怎么样用到生物的世界、生命的世界，怎样让人和脑更好的连接。

所有新的技术架构都会采用大型模型，就像新的人工智能操作系统一样。这些系统中会包含许多垂直模型，例如用于自动驾驶或其他生命科学领域的模型

我这里再简单讲一下清华智能产业研究院（AIR），这是我从百度退休之后创立的人工智能产业研究院，3年的时间发展速度很快，也很幸运能够找到一批有很深产业背景，同时有很深学术造诣的科学家和企业CTO。现在差不多加上博士后、学生有300人左右，自动驾驶是其中的一个方向，大概有100人左右。

每次提到AIR研究院，我都会想起25年前我回国创立微软亚洲研究院的那个时刻。下个月，我们将庆祝微软亚洲研究院成立25周年，这个研究院本身非常成功。我刚才提到的大型模型就是由微软研究院开发的，希望能够为中国产业打造一个研究院

我们在从事各种研究的时候希望有一个大的框架，比如智能驾驶方面要先确定一些技术路线。首先我认为多模态的感知很重要，从原多尺度、多维的数据很重要。因为做无人驾驶、智能驾驶，机器人的优势首先就是要求数据比较多，这个数据优势不能仍掉，所以我不同意马斯克所说的只用摄像头，我们需要用更多的数据源。其次是现在很多的自动驾驶会用到很多高精地图，但是我们认为未来是轻地图，不能完全依赖于地图。

自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现的，这个也非常难，这里面有更详细的技术因素，包括生成式AI、强化学习、大语言模型，我们有两个平台：数据大模型平台、仿真平台。

AIR也提出了自己的自动驾驶基础模型。首先模型提出了怎么样获取不同数据，包括真实世界数据和仿真数据。数据要经过受控管道进行清理，然后再经过两个大模型：感知模型、决策模型，包括在一些云端和车端的关键场所做出决策，有一些模块是提供信息，有一些是统计的，也有一些是基于规则的模块。

我专门提到了“强化学习”，因为我从开始使用百度以来就一直在使用它，但是它很难应用。由于自动驾驶的安全性非常重要，使用起来相当困难，但我认为这是我们唯一真正实现更高安全性的方法。强化学习可以学习新的东西，现在泛化的方式需要依靠强化学习来学习，最近也有很多新的进展。我们如何将强化学习应用于许多模拟和决策中，并将其应用于真正的驾驶行为中。左边的模型是基于大数据的垂直模型，我们如何使用强化学习来调整模型

生成式AI如何应用于仿真和决策中？这里有一个小例子，大型模型和深度学习都存在透明度问题，因此我们也进行了相关研究。为什么要做出这个决定呢？左转、右转、刹车，告诉我看到了什么，以及为什么要做出这个决定，它可以指导我们如何做出决策。我们使用真实数据、仿真数据、垂直模型和大型模型生成语义深度场景，包括交通和行人信息

需要重新写的内容是：另外一个需要研究的领域是人脑和机器的融合。我们需要探究人类如何驾驶汽车。人类有时能做出明智的决策，有时则不然。我们可以通过传感器收集这些信息。在很长一段时间内，人类和机器将共同驾驶汽车，无人驾驶技术需要逐渐理解人类的驾驶方式。同时，我们还可以将这些模型应用到算法中，以提高算法的效率

最后，我们非常高兴能和毫末在技术方面有深度的合作，这个合作是关于怎么样把强化学习用到认知决策里面？怎么样用真实的数据和实车场景用强化学习把它融合起来，当前，强化学习有很多的问题，在线或者离线的方式，包括函数定义的问题、策略模糊性的问题，所以我们做了很多这样的研究。过去一年多，在国际顶会发表了很多的论文，同时也有专利，最重要的是现在开始用到车里面，刚刚看到物流的小车已经开始用这些算法。

总结一下，智能驾驶和自动驾驶经历了不同的阶段。最初阶段主要依靠激光雷达和硬件驱动，基于人工规则进行操作。2.0阶段则由软件和算法驱动，增加了更多传感器，并且引入了机器学习和规则。而现在进入了3.0时代，大模型成为驱动力，这一阶段使用了多传感器和端到端算法，并且应用了强化学习，可以更好地实现自动驾驶在真实世界的应用

文中关于产业的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《清华大学AIR张亚勤院士亮相第九届毫末AI DAY，分享智能驾驶AI大模型技术最新进展》文章吧，也可关注golang学习网公众号了解相关技术文章。

产业

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除