当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 当AI面临瓶颈,安全合规的数据生态该如何构建

当AI面临瓶颈,安全合规的数据生态该如何构建

来源:搜狐 2023-05-31 15:20:04 0浏览 收藏

本篇文章向大家介绍《当AI面临瓶颈,安全合规的数据生态该如何构建》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。

自从 ChatGPT 横空出世后,一石激起千层浪,人工智能也正在从感知理解走向生成创造,这是一个关键里程碑。通过生成式大模型的发展,AI正走向通用人工智能,实现了从无到有的飞速进步,这也成为未来发展的趋势。

在ChatGPT发布后的短短4个月时间里,已经有至少30个国内研发机构与企业纷纷推出自己品牌的大模型与相关产品。例如百度的“文心一言”、阿里的“通义千问”、科大讯飞的“星火认知大模型”、京东的“言犀产业大模型”等等。

但是2023年4月,马斯克突然与1000多名人工智能专家和行业高管在公开信中呼吁:“ChatGPT等AI研究室需暂停研发6个月!”给出的理由是“只有当我们确信它们的影响是积极的,并且它们的风险是可控的时候,才能开发更强大的人工智能系统。”

聚焦大模型的“隐患”

事实上,对大模型的隐忧还不仅仅限于风险不可控,一项来自 Epoch AI Research 团队的研究抛出了一个残酷的现实:目前,公域中高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量也将在未来20年中逐步耗尽。在没有明显的效率提升或新数据源的情况下,到2040年,模型规模的增长将减缓。解决大型模型训练数据不足问题的关键,在于合法合规地利用手机等终端设备上的私有数据。

当AI面临瓶颈,安全合规的数据生态该如何构建

尽管当前的大型模型尚未涉及私人领域数据,但相关政策法规已经开始规范化。 4月11日,国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,在责任和义务方面,尤为强调数据合法性与对个人数据和信息的保护。其中提到:提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责;禁止非法获取、披露、利用个人信息和隐私、商业秘密。

当AI面临瓶颈,安全合规的数据生态该如何构建

由此可见,数据隐私之忧已经成为全行业的共识。而除了数据隐私的忧虑之外,由于大模型通常需要消耗大量的算力和数据,也就是说只有少数大公司拥有足够的资源来训练和部署这些模型。此情况有可能导致市场垄断,限制中小企业在机器学习和AI应用领域的参与机会,导致垄断和不公平。在云服务器上运行的大模型还会面临安全攻击风险。攻击者有可能采取恶意行为,入侵云服务器以获取模型和相关数据,或利用逆向工程方式获取模型参数来开发新的模型。

数据隐私泄露、安全漏洞、市场垄断、不公平性、公域数据即将耗尽等等大模型发展所面临的“隐患”该如何解决?

分散的小模型协作会成为大模型未来发展趋势吗?

4月18日,OpenAI CEO Sam Altman在讨论大模型发展的趋势的时候认为,让模型变得更大将不会进一步带来新进展。“我认为我们正处于将模型做大这一时代的尽头。我们将以其他方式使它们变得更好。未来的模型参数趋向于更小,或多个小型模型协同工作的方式。

“让大模型变小”已经成为众多研究者非常感兴趣的一条路,大家先后做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。

最近由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的开源新项目MLC LLM面世,希望实现在个人手机和电脑等各类设备平台上编译运行大语言模型。

今年4月,隐私计算联邦学习开源平台FATE (Federated AI Technology Enabler)正式发布联邦大模型FATE-LLM功能模块,同样是“小模型协作”的思路,FATE-LLM则是通过将联邦学习和大模型结合,在各参与方的敏感数据不出本地域的前提下,根据各方实际数据量进行算力投入,联合进行大模型训练。

基于此技术方案,多个机构可以通过FATE内置的预训练模型进行横向联邦,利用各自隐私数据进行联邦大模型微调,从而提升自身大模型应用的效果。联邦大模型不仅主要解决的是大模型训练阶段的隐私保护问题,未来还将研究在使用大模型的过程中如何保护用户的隐私。

这种方式将小型模型与大型模型联接起来,也很好地体现了小型模型协作的精髓。联邦学习作为一种分布式机器学习新范式,其“数据不动模型动,数据可用不可见”的特点使得各参与方可以在保护各自数据安全与用户隐私的前提下,进行AI协作,打破数据孤岛。

也正是因为联邦学习的这一属性,为未来大模型的发展提供新的思路:联邦学习与大模型结合,构建安全合规的数据生态大陆。

近期联邦大模型对现有大模型的支持已经在实操层面上有了很多新进展,FATE开源社区TSC Maintainer、开发专委会核心成员范涛告诉我们:“目前的FATE-LLM可以提供对主流大模型的支持,4月发布了联邦大模型FATE-LLM对GPT-2等大模型的支持,5月发布了对清华GLM大模型的支持。”

当AI面临瓶颈,安全合规的数据生态该如何构建

联邦大模型,也有需要面对的“原生困境”

和大模型面临的隐忧类似,即便是以大化小,联邦大模型更根本地解决了大模型面临的一些问题,但是联邦大模型依然有着自己要解决的“原生困境”。

公平性是否能够得到保障?数据隐私性是否能够有效保护?规模大小不一的异构模型集如何统一调配训练?这些也给联邦大模型的研究者们提出了难题。从2018年开始,香港科技大学讲席教授杨强和其团队始终致力于联邦学习的研究,如今,面对联邦大模型可能遇到的技术难题,杨强教授认为,想要在多个维度实现“既要,又要”,那么就必须在“平衡”上做文章。

面对联邦大模型是如何通过大大小小的分布式模型协作来解决私域数据的安全性问题,杨强教授认为:“未来,人工智能模型一定会成为我们贴身的人工智能助理,这就要求人工智能对个人的需求有更强的适配能力,更好的理解能力,这个时候,就会用到私域数据,包括个人的生理的数据,物联网数据以及一些跟个人非常强相关的数据。使用这些数据,一方面会让AI给我们提供更贴身的、更个性化的服务,但另一方面在用这些数据的时候也面临隐私保护的需求。联邦大模型针对这个问题提出的解决方案可以做到很好的平衡:一方面数据是分布的,另一方面,我们的这些大大小小的模型有的是分布式的,有的是个人化的、定制化的,他们一起来对联邦大模型总体产生性能的提升、效率的提升以及安全隐私的保护。这样,我们一方面能够享受到大数据带来的好处,另一方面我们还是能够安心的,放心地使用这些模型,不至于因为使用这些模型就泄露了不该泄露的数据。”

虽然联邦大模型旨在解决数据隐私问题,但其本身仍需应对安全性方面的挑战。联邦学习中数据和模型的安全性到底该如何保障呢?微众银行人工智能首席科学家范力欣告诉我们:“我们针对窃取数据和模型,以及破坏数据和模型两种安全隐患已经有相应的防御措施。为了防止数据被窃取,我们会采取加密数据的措施;对于模型窃取,我们会实施水印机制来加以制约。目前我们已经有一套技术方案能够支撑和有效的管理、追踪整个模型的全生命周期的合法使用,这同样对模型的知识产权进行了很好的保护。另外,针对数据攻击、数据投毒这一部分行为,我们通过对模型的锁定,对参数进行锁定,对数据样本进行锁定的方式去防御数据投毒。”

但在诸多的大模型发展的隐忧中,不仅仅有私域数据的隐私保护问题,还有样本分布不均衡导致模型本身的公平性问题,这该如何解决? 微众银行人工智能首席科学家范力欣告诉我们:“样本分布不均衡导致模型不公平性的问题其实早就提出来,在大模型之前或者联邦学习之前已经提出来。这个问题的基本的解决方案是有整体思路的:在训练模型时我们不仅仅是提升模型性能,而是对公平性、可解释性、鲁棒性等一系列跟伦理相关的目标都作为优化的约束条件或者优化的多目标一起来参与学习训练。”

这项技术框架提出了“多目标联邦学习优化”的“可信联邦学习”概念。在实践中,需要使用适当的算法来平衡不同目标之间的关系。

当AI面临瓶颈,安全合规的数据生态该如何构建

范力欣说:“我们模型性能要好,这是一个基本要求,但同时我们要保证它的公平性、可解释性要做到可度量的,并且跟模型性能一起来进行优化。比如我们联合多家机构承担的国家科技部科技创新2030-‘新一代人工智能’重大项目里面就应用了这样的解决方案,效果显著。再比如在与北航童永昕教授团队合作的联邦网约车调度中,通过设计合理的激励机制,使得司机完成任务的积极性大为提高,同时司机间的收入分布也更加均衡。”

联邦大模型从诞生开始就备受瞩目,其未来的应用也被业界普遍看好,联邦大模型未来将有机会重塑金融、零售、工业等多行业的数字化形态。相关应用场景包括在金融领域的智能客服、内容风控、金融资讯情感分析、文本意图识别、营销场景智能创意生成和优化等。尽管机构自身拥有的数据量和算力可能不足,却仍然能够通过发挥大模型的优势,安全合规地提升客服、营销、风控的效果。

当AI面临瓶颈,安全合规的数据生态该如何构建

人工智能正在经历从计算、感知到认知的发展阶段。联邦学习、可信联邦学习以及联邦学习 大模型,在保证安全、高效的要求下,进一步满足了可解释性和普惠性等人工智能伦理的核心命题,将看似为难的“既要,又要”,变成了可以将之平衡的解决方案,这也将为人工智能生态的良性、可持续发展提供助力。

到这里,我们也就讲完了《当AI面临瓶颈,安全合规的数据生态该如何构建》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI安全,数据合规,生态构建的知识点!

版本声明
本文转载于:搜狐 如有侵犯,请联系study_golang@163.com删除
纽约时报:暴雪正在开发自己的图像生成AI纽约时报:暴雪正在开发自己的图像生成AI
上一篇
纽约时报:暴雪正在开发自己的图像生成AI
长视频战胜短视频的唯一依仗,是AI?
下一篇
长视频战胜短视频的唯一依仗,是AI?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    4次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    5次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    41次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    35次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    35次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码