聊天机器人正在消化互联网,而互联网希望拿到回报
大家好,今天本人给大家带来文章《聊天机器人正在消化互联网,而互联网希望拿到回报》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!
人工智能公司正在利用无数人在互联网上创作的内容,但没有征得他们的同意,也没有给予任何报酬。如今,越来越多的科技和媒体公司开始要求支付费用,希望从聊天机器人的热潮中分一杯羹。
以下是翻译内容:
如果你曾在博客上发表过文章、在Reddit上发布过帖子,或在开放网络上分享过任何内容,那么你就有可能为最新一代人工智能的诞生做出了贡献。
谷歌的Bard、OpenAI的ChatGPT、微软的新版必应以及其他初创公司提供的类似工具,都整合了人工智能语言模型。但如果没有互联网上免费获取的海量文本,这些聪明的机器人作家将无法问世。
如今,网页内容再次成为争夺的焦点。这种情况自早期搜索引擎之争以来就没有出现过。科技巨头试图将这个不可替代的、富含全新价值的信息源划分为自己的领地。
原本不知情的科技和媒体公司正在意识到,这些数据对于培养新一代基于语言的人工智能至关重要。Reddit是OpenAI宝贵的培训资源之一,但最近前者宣布会向人工智能公司收取数据访问的费用。OpenAI拒绝就此发表评论。
最近,推特也开始对数据访问服务收费,这一变化影响了推特业务的许多方面,包括人工智能公司对数据的使用。代表出版商的新闻媒体联盟本月在一篇论文中宣布,当公司利用其成员制作的作品对人工智能进行培训时,它们应该支付许可费。
程序员问答网站Stack Overflow的首席执行官普拉尚思·钱德拉塞卡(Prashanth Chandrasekar)表示:“对我们来说,真正重要的是信息的归属。”对于大型人工智能公司访问网站上的用户创作内容,这家公司计划开始收取费用,“Stack Overflow社区在过去15年中花了那么多精力回答问题,我们真的想确保努力得到回报。”
以前曾出现许多人工智能服务,如OpenAI的Dall-E 2,它们可以通过学习来生成图像,但却被指控大规模窃取知识产权。创建这些系统的公司目前正卷入针对这些指控的诉讼。而人工智能生成的文本之争可能会更大,不仅涉及到补偿和信用问题,还涉及到隐私问题。
但华盛顿大学计算语言学家艾米丽·本德尔(Emily M. Bender)认为,根据现行法律,人工智能机构不必对其行为负责。
这场争端的起因在于人工智能聊天机器人的开发方式。这些机器人的核心算法被称为“大型语言模型算法”,需要通过吸纳和处理大量现有的语言文本数据,以模仿人类说话的内容和方式。这类数据与我们在互联网上所习惯的服务不同,比如Facebook母公司Meta Platforms等用于定向广告的行为和个人信息。
这些数据是由人类用户使用各种服务所创造的,比如Reddit用户发布的数亿条帖子。只有在网络上,你才能找到足够大的人工生成词库。如果没有它,今天所有基于聊天方式的人工智能和相关技术都不会成功。
非营利组织艾伦人工智能研究所的研究科学家杰西·道奇(Jesse Dodge)在2021年发表的一篇论文中发现,维基百科和无数来自大大小小媒体机构、受版权保护的新闻文章,都存在于最常用的网络爬虫数据库中。谷歌和Facebook都使用这个数据集来训练大型语言模型,OpenAI也使用了类似的数据库。
OpenAI不再公开其数据来源,但据该公司2020年发表的一篇论文,其大型语言模型使用从Reddit抓取的帖子来过滤和改进用于训练其人工智能的数据。
Reddit的发言人蒂姆·拉斯施密特(Tim Rathschmidt)表示,目前还不确定向访问其数据的公司收取费用会带来多少收入,但相信他们所拥有的数据可以帮助改进当今最先进的大型语言模型。
报道称,出版业高管们一直在调查:他们的内容在多大程度上被用来培训ChatGPT和其他人工智能工具?他们认为应该如何获得补偿?以及他们可以用哪些法律来捍卫自己的权利?不过,该组织的总法律顾问丹妮尔·科菲(Danielle Coffey)表示,到目前为止,还没有与任何大型人工智能聊天引擎的所有者(如谷歌、OpenAI、微软等)达成任何协议,让他们为抓取自新闻媒体联盟成员的部分训练数据付费。
推特没有回复置评请求。微软拒绝置评。谷歌的一位发言人表示:“长期以来,我们一直在帮助创作者和出版商将其内容货币化,并加强与受众的关系。按照我们的人工智能原则,我们将继续以负责任的、合乎道德的方式进行创新。”该发言人还说,“现在仍处于早期阶段”,对于如何构建有利于开放网络的人工智能,谷歌正在征求有关意见。
法律和道德泥潭
在某些情况下,复制开放网络上可用的数据(也被称为抓取)是合法的,尽管公司仍在就如何以及在何时被允许这么做的细节上争论不休。
大多数公司和组织愿意将他们的数据放在网上,是因为他们希望这些数据被搜索引擎发现并编制索引,这样便于人们找到这些内容。然而,复制这些数据来训练人工智能,以取代寻找原始来源的需要,这是完全不同的。
计算语言学家本德尔表示,那些从网络上收集信息来培训人工智能的科技公司的运营原则是:“我们可以接受它,因此它是我们的”。将文本(包括书籍、杂志文章、个人博客上的随笔、专利、科学论文以及维基百科内容)转化为聊天机器人的答案会去除材料的来源链接。这也会让用户更难核实机器人告诉他们的内容。对于经常说谎的系统来说,这是一个大问题。
这些大规模信息抓取还会窃取我们的个人信息。Common Crawl是一个非营利性组织,十多年来一直在抓取开放网络上的大量内容,并将其数据库免费提供给研究人员。Common Crawl的数据库也被用作希望培训人工智能的公司的起点,包括谷歌、Meta、OpenAI和其他公司。
塞巴斯蒂安·内格尔(Sebastian Nagel)是Common Crawl的数据科学家和工程师,他表示,你几年前写的一篇博客文章,虽然后来被删除,但可能仍然存在于OpenAI使用的训练数据中,该公司使用多年前的网络内容来训练其人工智能。
本德尔表示,与谷歌和微软拥有的搜索索引不同,从训练有素的人工智能中删除个人信息需要对整个模型进行重新培训。道奇也称,由于重新训练一个大型语言模型的成本可能非常高,即使用户能够证明个人数据被用来训练人工智能,公司也不太可能这样做。由于所需的巨大计算能力,这类模型的训练成本高达数千万美元。
但道奇补充说,在大多数情况下,也很难让接受过包括个人信息数据集训练的人工智能反刍这些信息。OpenAI表示,它已经调整了基于聊天的系统,以拒绝提供个人信息的请求。欧盟和美国政府正在考虑监管这类人工智能的新法律法规。
问责制和利润分享
有些人工智能的支持者认为,人工智能应该获得他们的工程师可以获得的所有数据,因为这是人类学习的方式。从逻辑上讲,为什么机器不应该这样做呢?
本德尔表示,抛开人工智能目前和人类还不一样这一点,上述观点存在一个问题,即根据现行法律,人工智能不能为自己的行为负责。抄袭他人作品的人,或试图将错误信息重新包装为真相的人,可能会面临严重后果,但机器和它的创造者则不承担同样的责任。
当然,情况可能并非总是如此。就像版权所有者Getty起诉使用他们的知识产权作为训练数据的图像生成人工智能公司一样,如果企业和其他组织未经授权使用他们的内容,他们很可能会最终将基于聊天的人工智能制造商告上法庭,除非他们同意获得授权。
无数人写的那些个人随笔,以及在默默无闻的论坛和已经消失的社交网络上发布的帖子,还有其他各种各样的东西,真的能让现今的聊天机器人变得写作能力一样好吗?这些内容的创造者能从中获得的唯一好处,也许只是他们在使用语言方面为培养聊天机器人做出了一些贡献。
以上就是《聊天机器人正在消化互联网,而互联网希望拿到回报》的详细内容,更多关于人工智能,语言模型的资料请关注golang学习网公众号!

- 上一篇
- GPT-4帮助企业实现数字化转型的五种方法

- 下一篇
- 因果推断在微视激励和供需场景的应用
-
- 科技周边 · 人工智能 | 21分钟前 |
- 官方认证!DeepSeek满血版入口及功能详解
- 141浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 | 豆包AI 报告生成
- 豆包AI生成报告步骤详解
- 284浏览 收藏
-
- 科技周边 · 人工智能 | 22分钟前 |
- 豆包AI协程技巧深度解析
- 236浏览 收藏
-
- 科技周边 · 人工智能 | 45分钟前 |
- 豆包AI能生成无障碍代码吗?
- 141浏览 收藏
-
- 科技周边 · 人工智能 | 48分钟前 | 宁德时代
- 「全球能源循环计划」发布,电池产业将迎巨变?
- 485浏览 收藏
-
- 科技周边 · 人工智能 | 50分钟前 |
- Premiere+DeepSeek:自动生成转场字幕方案
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 | 豆包AI
- 优化Python性能的3个实用技巧
- 414浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 |
- 设计神器DeepSeek+Canva快速出图教程
- 441浏览 收藏
-
- 科技周边 · 人工智能 | 55分钟前 |
- Kimi-Dev:月之暗面开源模型解析
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 56分钟前 |
- 豆包AI如何处理Python异常?
- 139浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | Claude 注册
- Claude注册教程:账号创建与登录步骤详解
- 417浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 144次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 169次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 160次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 143次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 173次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览