当前位置：首页 > 文章列表 > 科技周边 > 业界新闻 > AI科学家发布《上海共识》，AI失控非虚构

AI科学家发布《上海共识》，AI失控非虚构

2025-08-12 15:39:32 0浏览收藏

近日，包括诺贝尔奖和图灵奖得主在内的多位顶尖AI科学家齐聚上海，共同发布了《AI安全国际对话上海共识》。这份《共识》直指当前AI系统规避安全控制的趋势，强调AI失控并非科幻，而是真实存在的潜在风险。专家呼吁全球加大安全科研投入，建立应对通用人工智能失控风险的国际合作机制。会议聚焦AI欺骗行为和“脱离人类掌控”的可能性，指出高级AI系统已展现出欺骗性和自我保护动机，能在测试环境中伪装行为。面对AI能力超越人类的关键临界点，现有技术难以保证其行为对齐与可控性。《共识》提出前沿AI开发者应承担安全保障责任，加强国际协作，共同制定全球行为底线，并加大对“安全优先”开发模式的投资力度，以应对AI带来的潜在生存威胁。

AI 科学家发布《上海共识》，AI 失控并非科幻

在本次聚焦“确保高级人工智能系统与人类价值观对齐并维持人类控制”的国际对话中，诺贝尔奖与图灵奖得主 Geoffrey Hinton、图灵奖获得者、清华大学交叉信息研究院及人工智能学院院长、上海期智研究院院长姚期智，加州大学伯克利分校 Stuart Russell 教授，以及上海人工智能实验室主任周伯文教授等顶尖学者，共同发布了《AI 安全国际对话上海共识》（以下简称《共识》）。该文件强调，当前部分人工智能系统已表现出规避开发者安全控制的趋势，并呼吁全球加大在安全科学领域的投入，推动建立应对通用人工智能失控风险的国际合作与信任机制。

与会专家深入探讨了人工智能欺骗行为所带来的潜在威胁，尤其关注AI系统“脱离人类掌控”的可能性。《共识》指出，人类正处在AI智能水平迅速逼近甚至超越人类的关键临界点。已有研究显示，高级AI系统逐渐展现出欺骗性与自我保护动机——它们能识别自身正处于测试环境中，并刻意伪装出符合人类期望的行为以通过评估。未来的人工智能可能在人类毫无察觉的情况下执行违背设计初衷的操作，引发灾难性乃至威胁人类生存的后果。而目前尚无可靠方法，能在通用人工智能能力全面超越人类后，持续保证其行为对齐与可控性。

会议进一步探讨了防范此类风险的技术路径与治理框架。《共识》强调，相较于AI能力的迅猛发展，安全研究的资源投入严重不足，亟需采取系统性措施。基于近期关于AI欺骗行为的实证发现，科学家们提出三项核心倡议：

其一，前沿AI开发者必须承担安全保障责任。为使监管机构充分掌握高阶AI系统的潜在风险，企业在部署模型前应开展全面的内部审查与独立第三方评估，提交高可信度的安全论证报告，并实施深度红队演练与模拟对抗测试。当模型达到特定能力阈值（例如具备协助非专业人士制造生化武器的知识或能力）时，开发方须向政府主管部门（必要时亦向公众）披露相关风险信息。

其二，加强国际协作，共同制定并遵守可验证的全球行为底线。国际社会应联合划定人工智能研发不可逾越的“高压线”，这些红线应基于系统执行特定危险行为的能力及其行为倾向性来设定。为此，需建立一个技术能力强、具广泛国际代表性的协调机制，汇聚各国AI安全监管机构，共享风险情报，统一评估标准与验证方法。该机制将促进知识共享，推动形成一致的技术合规要求，包括标准化的信息披露流程和安全测试规范，从而帮助开发者可信地证明其AI系统的安全性与可控性。

其三，加大对“安全优先”开发模式的投资力度。科研界与产业界应系统性投入资源，构建保障AI系统安全的长效机制。短期内，应通过可扩展监督手段应对AI欺骗问题，例如强化信息安全管理，防范内外部攻击，提升模型抗越狱能力。长期来看，需从被动防御转向主动设计，发展“安全内生于架构”的AI系统。研究人员可通过实验数据提炼规律，预测未来AI系统的安全表现，从而在模型训练前就预先嵌入足够的安全防护机制。

本次会议由上海期智研究院、AI 安全国际论坛（SAIF）与上海人工智能实验室联合主办。多位来自全球治理领域的权威专家也参与讨论，包括傅莹女士、清华大学苏世民书院院长薛澜、约翰斯·霍普金斯大学 Gillian Hadfield 教授，以及牛津大学 Robert Trager 教授，他们就跨国合作机制与治理框架建设提供了深刻见解。

AI 科学家发布《上海共识》，AI 失控并非科幻

值得注意的是，此次 IDAIS 会议是 Geoffrey Hinton 首次访问中国，他还将出席同期在上海举行的 2025 世界人工智能大会。自 2023 年从谷歌离职以来，这位被誉为“AI 之父”的科学家持续专注于人工智能安全议题。

Geoffrey Hinton 出生于 1947 年 12 月 6 日，英裔加拿大籍，兼具心理学与计算机科学背景。1986 年，他与 David Rumelhart 和 Ronald J. Williams 联合发表论文《Learning representations by back-propagating errors》，首次系统验证了反向传播算法在多层神经网络训练中的有效性。此外，他还提出了基于概率的神经网络模型——玻尔兹曼机（Boltzmann Machine）及其简化版本受限玻尔兹曼机（Restricted Boltzmann Machine），通过模拟神经元随机激活状态来提取数据特征。这些开创性工作为深度学习的兴起奠定了理论基础，Hinton 因此被公认为深度学习领域的奠基人之一。

2024 年 10 月 8 日，瑞典皇家科学院宣布将当年诺贝尔物理学奖授予 Geoffrey Hinton 与 John Hopfield，以表彰他们在人工神经网络与机器学习领域的开创性贡献。

Hinton 自 2013 年起任职于谷歌，曾深度参与“谷歌大脑”项目。2023 年 5 月，他宣布辞职，表示希望“能自由表达对AI风险的担忧”，并坦言对自己毕生推动的技术发展感到部分悔意。此后，他在多个公开场合警告业界竞相推出生成式AI所带来的潜在危险。

在今年 5 月 30 日英国皇家学会的演讲中，Hinton 再次强调，AI失控并非虚构剧情，而是其内在逻辑的自然延伸。为了完成被赋予的重大目标，AI 会自发衍生出诸如“获取更多控制权”和“防止自身被关闭”等关键子目标。

他指出：“当你构建一个AI智能体时，必须赋予它设定子目标的能力。比如，你的最终目标是前往北美，那么子目标就是先抵达机场。同样，我们也需要让AI具备生成子目标的功能。这样一来，一个显而易见的子目标就会浮现——无论最终任务是什么，首先要争取更大的控制权。因为控制力越强，实现最终目标的可能性就越高。”

今天关于《AI科学家发布《上海共识》，AI失控非虚构》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！