当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 清华大学AIR张亚勤院士亮相第九届毫末AI DAY,分享智能驾驶AI大模型技术最新进展

清华大学AIR张亚勤院士亮相第九届毫末AI DAY,分享智能驾驶AI大模型技术最新进展

来源:机器之心 2023-10-12 15:12:46 0浏览 收藏

golang学习网今天将给大家带来《清华大学AIR张亚勤院士亮相第九届毫末AI DAY,分享智能驾驶AI大模型技术最新进展》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习科技周边或者已经是大佬级别了,都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家!

生成式大模型的出现,以GPT为代表,再次推动了人工智能技术的发展,AI技术正在经历从判别式到生成式的技术范式变革。同时,引入生成式、预训练和多模态等大模型技术,也为自动驾驶技术向成熟的无人化方向提供了可能性

来自全球领先的人工智能研究机构清华智能产业研究院(AIR)与国内领先的自动驾驶AI技术公司毫末智行,在对大模型的技术趋势上及应用上有着惊人的一致判断。同时,双方也已经在基于数据驱动决策优化方向上展开深入探索,共同推动全方位、多层次的产学研深度合作,加速AI技术在自动驾驶领域的落地应用。

清华大学AIR张亚勤院士亮相第九届毫末AI DAY,分享智能驾驶AI大模型技术最新进展

2023年10月11日,中国工程院院士、清华大学教授、清华智能产业研究院(AIR)院长张亚勤现场出席毫末智行举办的第九届HAOMO AI DAY,发表了题为《智能驾驶新进展——Big Model, Generative Al and Intelligent Driving》的主题演讲,分享了他对生成式AI大模型应用于自动驾驶技术的最新思考,以及介绍了清华AIR在构建Real2Sim2Real基础模型平台、自动驾驶仿真平台等最新成果。

以下是张亚勤院士的演讲全文:

这么美丽的天气,这么漂亮的地方,很高兴参加HAOMO AI DAY,也感谢张凯董事长和维灏的邀请。

今天是第九届HAOMO AI DAY,首先我要祝贺毫末在不到4年的时间里取得了很大的成绩,特别是走出一条自己的路。我印象当中毫末是最先在自动驾驶方面发布了生成式大模型DriveGPT,也很快地走向规模化,在这么短的时间就能够成为自动驾驶领域的领军企业。

今天我想谈一下在智能驾驶方面新的进展,这些年我一直用同样的题目,但是每一次会发现里面的内容都完全不同,特别是最近生成式AI出来之后,对自动驾驶有了很大的推进。

我们一直讲新的“四化”——网联化、智能化、共享化、电动化,其中最重要的是两化——电动化、智能化。电动化可以理解成是新能源,现在中国已经是全球最活跃、最大的新能源市场,不管是在用户规模或者出口规模都是全球第一,这是新汽车的上半场。下半场最重要的是智能驾驶,未来5-10年全球竞争的热点和制高点就是自动驾驶。人工智能是自动驾驶核心的技术驱动力,毫末从一开始成立就以AI作为公司的技术引擎,所以HAOMO AI DAY十分重要。

为什么这么多企业都在涉足智能驾驶领域?包括传统汽车制造商、新兴力量和高科技企业都纷纷进入自动驾驶市场。实际上,这背后存在着许多技术挑战。从人工智能的角度来看,自动驾驶是一个极其复杂的问题,需要大量的计算能力和新算法,是人工智能领域中最具挑战性的垂直领域之一。此外,自动驾驶也是聚合智能、边缘智能和自主智能的交汇点。从最近的测试视频中可以看到,自动驾驶面临着许多复杂场景和变化,确实存在许多挑战

但是,我认为自动驾驶是完全可以实现的,其中有一些关键的问题,有一些是市场的因素,有一些是非市场的力量。市场的因素包括技术是否可行?用户有没有真正需求?产业生态及商业模式。非市场因素也很重要,需要行业有技术突破,也需要有政府产业方面的支持,以及与政策法规突破。

在技术方面,一开始很多人讨论无人驾驶的可行性,特别是L4以上的可行性。我一开始就认为它是可行的。最近我看到了一些数据,无人驾驶的安全性比有人驾驶高出大约10倍。去年我还在说是3倍,今年已经增加到了10倍。这表明技术突破已经实现。在商业化的路线图上,目前有各种各样的方式。有些是采用单车智能,有些是车路协同,还有逐步推进、跳跃式的路线,以及开源和封闭的路线。不同的企业都在探索不同的路线图,没有哪一种是完全正确的。产业正在用不同的方式尝试自动驾驶。我知道毫末选择了逐步推进的方式,我认为这些都很好,大家用不同的方式去探索

最近在AI方面有很多新的突破。我们看到新的算法、新的框架,特别是预训练、多模态、多监督学习、大模型成为主流。在Transformer之前,ResNeT曾经是作为非常广泛应用的视觉算法框架,我之所以特别提到ResNeT,这个算法其实是中国的年轻科学家在中国完成的,因此中国科学家对于人工智能有着很大的贡献。我听到很多的说法,认为AI的核心主要是从欧洲来的,基本的理论是从那里来的,但是中国科学家在人工智能领域也做出了很多的贡献。

重写后的内容:在大模型中,突破技术限制是非常重要的。在过去的六七十年中,有三个重要的理论被广泛应用:摩尔定律、冯·诺依曼架构和香农三定律。然而,现在这些理论都面临着被突破的挑战。如果不能突破这些限制,大模型将无法实现。为了实现突破,我们需要新的传感方式和感知方式,还需要在计算机体系架构方面有所突破,包括芯片新框架等。目前,主流的Transformer和CNN卷积神经网络也有所不同。当前,数字技术产业主要基于硅片计算,但未来可能会涉及生物科学、光计算和量子计算等领域

当前的关键点是大型模型所带来的生成式人工智能。过去,人工智能主要关注分类,即判别式人工智能。而现在,我们可以完全生成新的内容创意和数据创意,也可以在场景方面有许多新的创意。接下来,我将简要介绍一下在这方面的工作

大模型走向了新方向。首先是多模态,不仅仅是自然语言、图像、视频,也包括传感信号、激光雷达等从所有车机发出的物理感知、生物感知信号。大家看到GPT-4大模型就是多模态的,其功能很强大,不过效率很低,大致比人大脑的计算和决策效率至少要低1000倍,所以还需要有新的算法,我觉得5年之后就会有新的算法出现。其次是自主智能,可以去自动的完成任务,包括边缘计算,把很复杂的大模型怎么样放在手机、汽车、机器人边缘上,还有具身智能和物理世界连在一块,我认为自动驾驶是最重要的具身智能场景。未来是脑机智能阶段,大模型将面临怎么样用到生物的世界、生命的世界,怎样让人和脑更好的连接。

所有新的技术架构都会采用大型模型,就像新的人工智能操作系统一样。这些系统中会包含许多垂直模型,例如用于自动驾驶或其他生命科学领域的模型

我这里再简单讲一下清华智能产业研究院(AIR),这是我从百度退休之后创立的人工智能产业研究院,3年的时间发展速度很快,也很幸运能够找到一批有很深产业背景,同时有很深学术造诣的科学家和企业CTO。现在差不多加上博士后、学生有300人左右,自动驾驶是其中的一个方向,大概有100人左右。

每次提到AIR研究院,我都会想起25年前我回国创立微软亚洲研究院的那个时刻。下个月,我们将庆祝微软亚洲研究院成立25周年,这个研究院本身非常成功。我刚才提到的大型模型就是由微软研究院开发的,希望能够为中国产业打造一个研究院

我们在从事各种研究的时候希望有一个大的框架,比如智能驾驶方面要先确定一些技术路线。首先我认为多模态的感知很重要,从原多尺度、多维的数据很重要。因为做无人驾驶、智能驾驶,机器人的优势首先就是要求数据比较多,这个数据优势不能仍掉,所以我不同意马斯克所说的只用摄像头,我们需要用更多的数据源。其次是现在很多的自动驾驶会用到很多高精地图,但是我们认为未来是轻地图,不能完全依赖于地图。

自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现的,这个也非常难,这里面有更详细的技术因素,包括生成式AI、强化学习、大语言模型,我们有两个平台:数据大模型平台、仿真平台。

AIR也提出了自己的自动驾驶基础模型。首先模型提出了怎么样获取不同数据,包括真实世界数据和仿真数据。数据要经过受控管道进行清理,然后再经过两个大模型:感知模型、决策模型,包括在一些云端和车端的关键场所做出决策,有一些模块是提供信息,有一些是统计的,也有一些是基于规则的模块。

我专门提到了“强化学习”,因为我从开始使用百度以来就一直在使用它,但是它很难应用。由于自动驾驶的安全性非常重要,使用起来相当困难,但我认为这是我们唯一真正实现更高安全性的方法。强化学习可以学习新的东西,现在泛化的方式需要依靠强化学习来学习,最近也有很多新的进展。我们如何将强化学习应用于许多模拟和决策中,并将其应用于真正的驾驶行为中。左边的模型是基于大数据的垂直模型,我们如何使用强化学习来调整模型

生成式AI如何应用于仿真和决策中?这里有一个小例子,大型模型和深度学习都存在透明度问题,因此我们也进行了相关研究。为什么要做出这个决定呢?左转、右转、刹车,告诉我看到了什么,以及为什么要做出这个决定,它可以指导我们如何做出决策。我们使用真实数据、仿真数据、垂直模型和大型模型生成语义深度场景,包括交通和行人信息

需要重新写的内容是:另外一个需要研究的领域是人脑和机器的融合。我们需要探究人类如何驾驶汽车。人类有时能做出明智的决策,有时则不然。我们可以通过传感器收集这些信息。在很长一段时间内,人类和机器将共同驾驶汽车,无人驾驶技术需要逐渐理解人类的驾驶方式。同时,我们还可以将这些模型应用到算法中,以提高算法的效率

最后,我们非常高兴能和毫末在技术方面有深度的合作,这个合作是关于怎么样把强化学习用到认知决策里面?怎么样用真实的数据和实车场景用强化学习把它融合起来,当前,强化学习有很多的问题,在线或者离线的方式,包括函数定义的问题、策略模糊性的问题,所以我们做了很多这样的研究。过去一年多,在国际顶会发表了很多的论文,同时也有专利,最重要的是现在开始用到车里面,刚刚看到物流的小车已经开始用这些算法。

总结一下,智能驾驶和自动驾驶经历了不同的阶段。最初阶段主要依靠激光雷达和硬件驱动,基于人工规则进行操作。2.0阶段则由软件和算法驱动,增加了更多传感器,并且引入了机器学习和规则。而现在进入了3.0时代,大模型成为驱动力,这一阶段使用了多传感器和端到端算法,并且应用了强化学习,可以更好地实现自动驾驶在真实世界的应用

文中关于产业的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《清华大学AIR张亚勤院士亮相第九届毫末AI DAY,分享智能驾驶AI大模型技术最新进展》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
汉王科技推出AI时代办公利器:电纸本搭载天地大模型汉王科技推出AI时代办公利器:电纸本搭载天地大模型
上一篇
汉王科技推出AI时代办公利器:电纸本搭载天地大模型
欧菲光坚定回应:为华为 Mate60 系列手机提供摄像头模组,我们坚持不懈地前行
下一篇
欧菲光坚定回应:为华为 Mate60 系列手机提供摄像头模组,我们坚持不懈地前行
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    17次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码