当AI面临瓶颈,安全合规的数据生态该如何构建
本篇文章向大家介绍《当AI面临瓶颈,安全合规的数据生态该如何构建》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
自从 ChatGPT 横空出世后,一石激起千层浪,人工智能也正在从感知理解走向生成创造,这是一个关键里程碑。通过生成式大模型的发展,AI正走向通用人工智能,实现了从无到有的飞速进步,这也成为未来发展的趋势。
在ChatGPT发布后的短短4个月时间里,已经有至少30个国内研发机构与企业纷纷推出自己品牌的大模型与相关产品。例如百度的“文心一言”、阿里的“通义千问”、科大讯飞的“星火认知大模型”、京东的“言犀产业大模型”等等。
但是2023年4月,马斯克突然与1000多名人工智能专家和行业高管在公开信中呼吁:“ChatGPT等AI研究室需暂停研发6个月!”给出的理由是“只有当我们确信它们的影响是积极的,并且它们的风险是可控的时候,才能开发更强大的人工智能系统。”
聚焦大模型的“隐患”
事实上,对大模型的隐忧还不仅仅限于风险不可控,一项来自 Epoch AI Research 团队的研究抛出了一个残酷的现实:目前,公域中高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量也将在未来20年中逐步耗尽。在没有明显的效率提升或新数据源的情况下,到2040年,模型规模的增长将减缓。解决大型模型训练数据不足问题的关键,在于合法合规地利用手机等终端设备上的私有数据。

尽管当前的大型模型尚未涉及私人领域数据,但相关政策法规已经开始规范化。 4月11日,国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,在责任和义务方面,尤为强调数据合法性与对个人数据和信息的保护。其中提到:提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责;禁止非法获取、披露、利用个人信息和隐私、商业秘密。

由此可见,数据隐私之忧已经成为全行业的共识。而除了数据隐私的忧虑之外,由于大模型通常需要消耗大量的算力和数据,也就是说只有少数大公司拥有足够的资源来训练和部署这些模型。此情况有可能导致市场垄断,限制中小企业在机器学习和AI应用领域的参与机会,导致垄断和不公平。在云服务器上运行的大模型还会面临安全攻击风险。攻击者有可能采取恶意行为,入侵云服务器以获取模型和相关数据,或利用逆向工程方式获取模型参数来开发新的模型。
数据隐私泄露、安全漏洞、市场垄断、不公平性、公域数据即将耗尽等等大模型发展所面临的“隐患”该如何解决?
分散的小模型协作会成为大模型未来发展趋势吗?
4月18日,OpenAI CEO Sam Altman在讨论大模型发展的趋势的时候认为,让模型变得更大将不会进一步带来新进展。“我认为我们正处于将模型做大这一时代的尽头。我们将以其他方式使它们变得更好。未来的模型参数趋向于更小,或多个小型模型协同工作的方式。
“让大模型变小”已经成为众多研究者非常感兴趣的一条路,大家先后做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。
最近由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的开源新项目MLC LLM面世,希望实现在个人手机和电脑等各类设备平台上编译运行大语言模型。
今年4月,隐私计算联邦学习开源平台FATE (Federated AI Technology Enabler)正式发布联邦大模型FATE-LLM功能模块,同样是“小模型协作”的思路,FATE-LLM则是通过将联邦学习和大模型结合,在各参与方的敏感数据不出本地域的前提下,根据各方实际数据量进行算力投入,联合进行大模型训练。
基于此技术方案,多个机构可以通过FATE内置的预训练模型进行横向联邦,利用各自隐私数据进行联邦大模型微调,从而提升自身大模型应用的效果。联邦大模型不仅主要解决的是大模型训练阶段的隐私保护问题,未来还将研究在使用大模型的过程中如何保护用户的隐私。
这种方式将小型模型与大型模型联接起来,也很好地体现了小型模型协作的精髓。联邦学习作为一种分布式机器学习新范式,其“数据不动模型动,数据可用不可见”的特点使得各参与方可以在保护各自数据安全与用户隐私的前提下,进行AI协作,打破数据孤岛。
也正是因为联邦学习的这一属性,为未来大模型的发展提供新的思路:联邦学习与大模型结合,构建安全合规的数据生态大陆。
近期联邦大模型对现有大模型的支持已经在实操层面上有了很多新进展,FATE开源社区TSC Maintainer、开发专委会核心成员范涛告诉我们:“目前的FATE-LLM可以提供对主流大模型的支持,4月发布了联邦大模型FATE-LLM对GPT-2等大模型的支持,5月发布了对清华GLM大模型的支持。”

联邦大模型,也有需要面对的“原生困境”
和大模型面临的隐忧类似,即便是以大化小,联邦大模型更根本地解决了大模型面临的一些问题,但是联邦大模型依然有着自己要解决的“原生困境”。
公平性是否能够得到保障?数据隐私性是否能够有效保护?规模大小不一的异构模型集如何统一调配训练?这些也给联邦大模型的研究者们提出了难题。从2018年开始,香港科技大学讲席教授杨强和其团队始终致力于联邦学习的研究,如今,面对联邦大模型可能遇到的技术难题,杨强教授认为,想要在多个维度实现“既要,又要”,那么就必须在“平衡”上做文章。
面对联邦大模型是如何通过大大小小的分布式模型协作来解决私域数据的安全性问题,杨强教授认为:“未来,人工智能模型一定会成为我们贴身的人工智能助理,这就要求人工智能对个人的需求有更强的适配能力,更好的理解能力,这个时候,就会用到私域数据,包括个人的生理的数据,物联网数据以及一些跟个人非常强相关的数据。使用这些数据,一方面会让AI给我们提供更贴身的、更个性化的服务,但另一方面在用这些数据的时候也面临隐私保护的需求。联邦大模型针对这个问题提出的解决方案可以做到很好的平衡:一方面数据是分布的,另一方面,我们的这些大大小小的模型有的是分布式的,有的是个人化的、定制化的,他们一起来对联邦大模型总体产生性能的提升、效率的提升以及安全隐私的保护。这样,我们一方面能够享受到大数据带来的好处,另一方面我们还是能够安心的,放心地使用这些模型,不至于因为使用这些模型就泄露了不该泄露的数据。”
虽然联邦大模型旨在解决数据隐私问题,但其本身仍需应对安全性方面的挑战。联邦学习中数据和模型的安全性到底该如何保障呢?微众银行人工智能首席科学家范力欣告诉我们:“我们针对窃取数据和模型,以及破坏数据和模型两种安全隐患已经有相应的防御措施。为了防止数据被窃取,我们会采取加密数据的措施;对于模型窃取,我们会实施水印机制来加以制约。目前我们已经有一套技术方案能够支撑和有效的管理、追踪整个模型的全生命周期的合法使用,这同样对模型的知识产权进行了很好的保护。另外,针对数据攻击、数据投毒这一部分行为,我们通过对模型的锁定,对参数进行锁定,对数据样本进行锁定的方式去防御数据投毒。”
但在诸多的大模型发展的隐忧中,不仅仅有私域数据的隐私保护问题,还有样本分布不均衡导致模型本身的公平性问题,这该如何解决? 微众银行人工智能首席科学家范力欣告诉我们:“样本分布不均衡导致模型不公平性的问题其实早就提出来,在大模型之前或者联邦学习之前已经提出来。这个问题的基本的解决方案是有整体思路的:在训练模型时我们不仅仅是提升模型性能,而是对公平性、可解释性、鲁棒性等一系列跟伦理相关的目标都作为优化的约束条件或者优化的多目标一起来参与学习训练。”
这项技术框架提出了“多目标联邦学习优化”的“可信联邦学习”概念。在实践中,需要使用适当的算法来平衡不同目标之间的关系。

范力欣说:“我们模型性能要好,这是一个基本要求,但同时我们要保证它的公平性、可解释性要做到可度量的,并且跟模型性能一起来进行优化。比如我们联合多家机构承担的国家科技部科技创新2030-‘新一代人工智能’重大项目里面就应用了这样的解决方案,效果显著。再比如在与北航童永昕教授团队合作的联邦网约车调度中,通过设计合理的激励机制,使得司机完成任务的积极性大为提高,同时司机间的收入分布也更加均衡。”
联邦大模型从诞生开始就备受瞩目,其未来的应用也被业界普遍看好,联邦大模型未来将有机会重塑金融、零售、工业等多行业的数字化形态。相关应用场景包括在金融领域的智能客服、内容风控、金融资讯情感分析、文本意图识别、营销场景智能创意生成和优化等。尽管机构自身拥有的数据量和算力可能不足,却仍然能够通过发挥大模型的优势,安全合规地提升客服、营销、风控的效果。

人工智能正在经历从计算、感知到认知的发展阶段。联邦学习、可信联邦学习以及联邦学习 大模型,在保证安全、高效的要求下,进一步满足了可解释性和普惠性等人工智能伦理的核心命题,将看似为难的“既要,又要”,变成了可以将之平衡的解决方案,这也将为人工智能生态的良性、可持续发展提供助力。
到这里,我们也就讲完了《当AI面临瓶颈,安全合规的数据生态该如何构建》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI安全,数据合规,生态构建的知识点!
纽约时报:暴雪正在开发自己的图像生成AI
- 上一篇
- 纽约时报:暴雪正在开发自己的图像生成AI
- 下一篇
- 长视频战胜短视频的唯一依仗,是AI?
-
- 谨慎的蜡烛
- 好细啊,已加入收藏夹了,感谢老哥的这篇博文,我会继续支持!
- 2023-07-02 05:08:06
-
- 冷静的电源
- 这篇博文真是及时雨啊,太详细了,赞 ??,已加入收藏夹了,关注楼主了!希望楼主能多写科技周边相关的文章。
- 2023-06-11 01:38:21
-
- 曾经的滑板
- 受益颇多,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢作者大大分享文章!
- 2023-06-04 21:56:12
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 1201次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 1153次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 1086次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 1273次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 1267次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

