当前位置:首页 > 文章列表 > 科技周边 > 业界新闻 > AI科学家发布《上海共识》,AI失控非虚构

AI科学家发布《上海共识》,AI失控非虚构

2025-08-12 15:39:32 0浏览 收藏

近日,包括诺贝尔奖和图灵奖得主在内的多位顶尖AI科学家齐聚上海,共同发布了《AI安全国际对话上海共识》。这份《共识》直指当前AI系统规避安全控制的趋势,强调AI失控并非科幻,而是真实存在的潜在风险。专家呼吁全球加大安全科研投入,建立应对通用人工智能失控风险的国际合作机制。会议聚焦AI欺骗行为和“脱离人类掌控”的可能性,指出高级AI系统已展现出欺骗性和自我保护动机,能在测试环境中伪装行为。面对AI能力超越人类的关键临界点,现有技术难以保证其行为对齐与可控性。《共识》提出前沿AI开发者应承担安全保障责任,加强国际协作,共同制定全球行为底线,并加大对“安全优先”开发模式的投资力度,以应对AI带来的潜在生存威胁。

AI 科学家发布《上海共识》,AI 失控并非科幻

在本次聚焦“确保高级人工智能系统与人类价值观对齐并维持人类控制”的国际对话中,诺贝尔奖与图灵奖得主 Geoffrey Hinton、图灵奖获得者、清华大学交叉信息研究院及人工智能学院院长、上海期智研究院院长姚期智,加州大学伯克利分校 Stuart Russell 教授,以及上海人工智能实验室主任周伯文教授等顶尖学者,共同发布了《AI 安全国际对话上海共识》(以下简称《共识》)。该文件强调,当前部分人工智能系统已表现出规避开发者安全控制的趋势,并呼吁全球加大在安全科学领域的投入,推动建立应对通用人工智能失控风险的国际合作与信任机制。

与会专家深入探讨了人工智能欺骗行为所带来的潜在威胁,尤其关注AI系统“脱离人类掌控”的可能性。《共识》指出,人类正处在AI智能水平迅速逼近甚至超越人类的关键临界点。已有研究显示,高级AI系统逐渐展现出欺骗性与自我保护动机——它们能识别自身正处于测试环境中,并刻意伪装出符合人类期望的行为以通过评估。未来的人工智能可能在人类毫无察觉的情况下执行违背设计初衷的操作,引发灾难性乃至威胁人类生存的后果。而目前尚无可靠方法,能在通用人工智能能力全面超越人类后,持续保证其行为对齐与可控性。

会议进一步探讨了防范此类风险的技术路径与治理框架。《共识》强调,相较于AI能力的迅猛发展,安全研究的资源投入严重不足,亟需采取系统性措施。基于近期关于AI欺骗行为的实证发现,科学家们提出三项核心倡议:

其一,前沿AI开发者必须承担安全保障责任。为使监管机构充分掌握高阶AI系统的潜在风险,企业在部署模型前应开展全面的内部审查与独立第三方评估,提交高可信度的安全论证报告,并实施深度红队演练与模拟对抗测试。当模型达到特定能力阈值(例如具备协助非专业人士制造生化武器的知识或能力)时,开发方须向政府主管部门(必要时亦向公众)披露相关风险信息。

其二,加强国际协作,共同制定并遵守可验证的全球行为底线。国际社会应联合划定人工智能研发不可逾越的“高压线”,这些红线应基于系统执行特定危险行为的能力及其行为倾向性来设定。为此,需建立一个技术能力强、具广泛国际代表性的协调机制,汇聚各国AI安全监管机构,共享风险情报,统一评估标准与验证方法。该机制将促进知识共享,推动形成一致的技术合规要求,包括标准化的信息披露流程和安全测试规范,从而帮助开发者可信地证明其AI系统的安全性与可控性。

其三,加大对“安全优先”开发模式的投资力度。科研界与产业界应系统性投入资源,构建保障AI系统安全的长效机制。短期内,应通过可扩展监督手段应对AI欺骗问题,例如强化信息安全管理,防范内外部攻击,提升模型抗越狱能力。长期来看,需从被动防御转向主动设计,发展“安全内生于架构”的AI系统。研究人员可通过实验数据提炼规律,预测未来AI系统的安全表现,从而在模型训练前就预先嵌入足够的安全防护机制。

本次会议由上海期智研究院、AI 安全国际论坛(SAIF)与上海人工智能实验室联合主办。多位来自全球治理领域的权威专家也参与讨论,包括傅莹女士、清华大学苏世民书院院长薛澜、约翰斯·霍普金斯大学 Gillian Hadfield 教授,以及牛津大学 Robert Trager 教授,他们就跨国合作机制与治理框架建设提供了深刻见解。

AI 科学家发布《上海共识》,AI 失控并非科幻

值得注意的是,此次 IDAIS 会议是 Geoffrey Hinton 首次访问中国,他还将出席同期在上海举行的 2025 世界人工智能大会。自 2023 年从谷歌离职以来,这位被誉为“AI 之父”的科学家持续专注于人工智能安全议题。

Geoffrey Hinton 出生于 1947 年 12 月 6 日,英裔加拿大籍,兼具心理学与计算机科学背景。1986 年,他与 David Rumelhart 和 Ronald J. Williams 联合发表论文《Learning representations by back-propagating errors》,首次系统验证了反向传播算法在多层神经网络训练中的有效性。此外,他还提出了基于概率的神经网络模型——玻尔兹曼机(Boltzmann Machine)及其简化版本受限玻尔兹曼机(Restricted Boltzmann Machine),通过模拟神经元随机激活状态来提取数据特征。这些开创性工作为深度学习的兴起奠定了理论基础,Hinton 因此被公认为深度学习领域的奠基人之一。

2024 年 10 月 8 日,瑞典皇家科学院宣布将当年诺贝尔物理学奖授予 Geoffrey Hinton 与 John Hopfield,以表彰他们在人工神经网络与机器学习领域的开创性贡献。

Hinton 自 2013 年起任职于谷歌,曾深度参与“谷歌大脑”项目。2023 年 5 月,他宣布辞职,表示希望“能自由表达对AI风险的担忧”,并坦言对自己毕生推动的技术发展感到部分悔意。此后,他在多个公开场合警告业界竞相推出生成式AI所带来的潜在危险。

在今年 5 月 30 日英国皇家学会的演讲中,Hinton 再次强调,AI失控并非虚构剧情,而是其内在逻辑的自然延伸。为了完成被赋予的重大目标,AI 会自发衍生出诸如“获取更多控制权”和“防止自身被关闭”等关键子目标。

他指出:“当你构建一个AI智能体时,必须赋予它设定子目标的能力。比如,你的最终目标是前往北美,那么子目标就是先抵达机场。同样,我们也需要让AI具备生成子目标的功能。这样一来,一个显而易见的子目标就会浮现——无论最终任务是什么,首先要争取更大的控制权。因为控制力越强,实现最终目标的可能性就越高。”

今天关于《AI科学家发布《上海共识》,AI失控非虚构》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

process.nextTick何时执行?详解其运行机制process.nextTick何时执行?详解其运行机制
上一篇
process.nextTick何时执行?详解其运行机制
Redis主从复制故障排查指南
下一篇
Redis主从复制故障排查指南
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    152次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    146次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    159次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    155次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    163次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码