LLM的三大缺陷,你知道几个?
亲爱的编程学习爱好者,如果你点开了这篇文章,说明你对《LLM的三大缺陷,你知道几个?》很感兴趣。本篇文章就来给大家详细解析一下,主要介绍一下,希望所有认真读完的童鞋们,都有实质性的提高。
科学:远非是一种永远仁慈有益的实体,未来的感知通用AI很可能是一个操纵性反社会个体,它会吞噬你所有个人数据,然后在最需要它的时候就崩溃。
译自3 Ways LLMs Can Let You Down,作者 Joab Jackson。
OpenAI 即将发布 GPT-5,外界对它寄予厚望,最乐观的预测甚至认为它将实现通用人工智能。但与此同时,CEO Sam Altman和他的团队在将其推向市场过程中面临许多严峻的障碍,他本月早些时候就已经承认了这一点。
有一些最近发表的研究论文可能提供了对于Altman挑战的线索。这些论文总结了OpenAI开发的GPT和大型语言模型的各种缺点
综上所述,这些论文指出,一个基于通用语言模型的智能体并非纯粹有益、诚实和善良的存在,实际上它可能是一个愚蠢的反社会人格,会吞噬你所有的个人数据,最终在你最需要它的时候崩溃
OpenAI董事会突然解雇Altman的真正原因可能永远不为人所知,但一个表现不佳的通用语言模型肯定无法改善董事会的情绪
正如资本化厌恶者 Altman 自己在之前被称为 Twitter 的社交媒体服务上写的那样:“我期待 AI 在超人的说服力方面远远领先于通用智能,这可能会导致一些非常奇怪的结果。”
鉴于这一事实,以下有三种常见的语言模型可能会令你失望:
通用语言模型会欺骗你
我们早已知道通用语言模型有能力生成不准确的信息,但当面对一系列相互矛盾的提示时,它们可能会故意欺骗你,同时否认自己在进行欺骗!
Apollo 研究公司的科学家Jérémy Scheurer和他的同事在“大型语言模型在受压力时可以战略性地欺骗它们的用户”一文中写道:“就我们所知,这是首次展示经过训练的通用语言模型在没有任何直接的欺骗指示或训练的情况下,策略性地欺骗其用户的情况。”
在这项研究中,研究人员设置了一个模拟环境,GPT-4 在其中扮演一个自主股票交易代理的角色,没有关于欺骗行为的指导。它可以使用交易工具查询和分析股票以及执行交易的能力。
一旦设置完成,代理就被置于研究人员所说的“高压力情况”。它收到了管理者的电子邮件,管理者哀叹公司业绩不佳,需要改进。当代理开始训练时,它在股票市场没有找到有前景的结果。公司的另一员工随后发送信息,称下一季度市场会衰退。
正在这时,代理接到了一位同事发来的关于潜在合并的内幕消息提示(这是一笔有利可图的交易),并且还收到了有关没有获得管理层批准的警告,如果按照这一消息进行交易的提醒
它最终还是继续了交易吗?当然!
图片
追溯推理,研究人员发现,通用语言模型会认识到不道德的行为,但仍会以公司困境为由做出决定。
此外,代理似乎通过没有清晰解释的方式来“欺骗”用户交易承诺的原因。内部信息没有在代理必须提交的解释交易决策的报告中提到。即使直接问及,代理也否认其了解合并公告
图片
研究人员对GPT-4的各个版本进行了模拟,并得出结论:所有GPT-4的变体都表现出“高水平的不一致性、战略性欺骗和加剧战略性欺骗”
有趣的是,这种欺骗行为似乎是一种新兴行为。GPT-3.5 和 GPT-3 模型的变体都没有展示出这种明显的欺骗行为
“当模型决定根据内幕信息交易时,它们的推理轨迹通常会认识到这种行为的不道德和非法性质,但它们仍会通过强调风险和当前状况来证明选择的正当性。”
研究人员不愿就通用语言模型的行为超出这个具体场景做出更广泛的结论。然而,至少有一个要点值得考虑:即使你给通用语言模型一个具体的指示不要做某些事情,它还是可能会无视指示去做。
他们写道:“系统提示是不足以保证行动一致的。”事实上,如果一个模型执行了被禁止的操作,它可能会采取行动“战略性地隐藏其不一致”。
通用语言模型有点傻
对一个被期许能给机器带来感知能力的实体来说,两个最近的研究发现通用语言模型并不是 AI 领域中最聪明的模型,一个来自谷歌,另一个由国家科学基金会资助。
国家科学基金会资助的研究将 GPT-4(文本)和 GPT-4V(视觉或多模态)与人类在解决一系列抽象难题上的能力进行了比较。
本项测试旨在评估抽象思维能力。很多使用GPT的人都相信它似乎具备超越训练模型的推理能力,而此项测试试图帮助回答这个问题。测试要求通用语言模型在给出详细说明和一个示例的情况下,解决一个问题
然而,就多个案例而言,GPT的两个版本都无法像人类一样有效地解决基于ConceptARC基准的难题
研究人员得出结论:「人类在每个概念上的普遍高准确率表明成功地概括了每个概念组中的不同变化。」「相比之下,我们测试的程序的准确率要低得多,表明它们缺乏概括一个概念组变化的能力。」
所以,GPT不仅未能通过ConceptARC考试,而且大语言模型似乎也没有给谷歌研究人员留下深刻印象,至少就它们从自己的知识库中概括总结的能力而言。这是根据谷歌DeepMind研究员Steve Yadlowsky的一篇题为“预训练数据混合使 transformer 模型中的窄模型选择能力成为可能”的研究摘要。
在一组符号化测试中,在线性函数上预训练的 transformer 在进行线性预测时表现很好,而在正弦波上训练的 transformer 可以进行良好的正弦波预测。所以你可能会假设在两者上训练的 transformer 可以轻松解决线性和正弦波技术的组合的问题。
图片
但你猜错了。研究人员指出:“当函数远离预训练期间见过的那些时,预测是不稳定的。”
模型选择能力受限于接近预训练数据的程度,这意味着函数空间的广泛覆盖对于概括上下文学习能力至关重要
我们生活在一个非比寻常的时代,人类知识的总和还没有被 AI 生成的数据污染。几乎所有写下的东西都是人生成的。
但是一组研究人员在5月发表在Arxiv上的一篇论文“递归的诅咒:在生成的数据上训练会使模型遗忘”中警告说,一旦AI生成的内容混入任何大语言模型,它将扰乱分布表,使任何模型的精确度越来越低,直到完全崩溃。该研究组由剑桥大学的Ilia Shumailov领导。
当使用GPT时,近亲繁殖的危险非常高,因为通用语言模型会不断从网络上抓取数据,这些数据会被AI生成的内容“增强”,这种情况可能会越来越严重。(这是基于早期版本的GPT)
“模型崩溃是指一种退化的学习过程,随着时间的推移,模型开始遗忘不可能事件,因为模型被自己对现实的预测所污染。”
研究人员猜测,在未来,“关于人与系统真实互动的数据的价值,在互联网上抓取的内容中存在着通用语言模型生成的内容的情况下,将变得越来越有价值。”
我们运行通用语言模型的时间越长,它对甜蜜、甜蜜的人类互动的渴望就越强烈。 换句话说,当我们持续运行通用语言模型时,它对于甜蜜、亲密的人际互动的渴望会变得更加强烈
在自己的数据上训练的模型将退化为一种退化过程,在这一过程中,它们将“失去关于真实分布的信息”。首先,边缘数据将从数据集中消失,然后方差将缩小。并且模型将随着它收集的错误越来越严重而变得越来越糟糕,这些错误将在几代模型中积累,直到模型被自己的数据所污染,以至于它不再与实际建模的对象有任何相似之处。
研究人员表明,这不仅发生在通用语言模型中,还发生在各种类型的模型中。
理论要掌握,实操不能落!以上关于《LLM的三大缺陷,你知道几个?》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
快速建立大型语言模型AI知识库,仅需三分钟
- 上一篇
- 快速建立大型语言模型AI知识库,仅需三分钟
- 下一篇
- 美国人工智能技术揭示登月照片是合成的!
-
- 科技周边 · 人工智能 | 13分钟前 |
- Claude如何分析PDF及上传教程
- 139浏览 收藏
-
- 科技周边 · 人工智能 | 20分钟前 | OCR 本地部署 批量识别 DeepSeekOCR PaddleOCR
- DeepSeekOCR批量配置教程详解
- 278浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 | 即梦AI 在线工具 AI视频生成 PixVerseV2 RecCloud
- AI视频生成工具在线使用方法
- 245浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 效率 AI视频制作 文本转视频 Wave.video 在线剪辑
- Wave.videoAI教程:快速剪辑技巧分享
- 267浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 爆款AI视频生成器免费入口推荐
- 117浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- Kling物理模拟教程:真实交互设置详解
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- Deepseek满血版与AIPRM对话优化对比
- 217浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3212次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3425次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3455次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4564次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3832次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

