当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 监督学习与无监督学习:专家定义差距

监督学习与无监督学习:专家定义差距

来源:51CTO.COM 2023-11-24 18:07:19 0浏览 收藏

哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《监督学习与无监督学习:专家定义差距》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!

需要重写的内容是:了解监督学习、无监督学习和半监督学习的特征,以及它们在机器学习项目中的应用方式

监督学习与无监督学习:专家定义差距

在讨论人工智能技术时,监督学习往往是最受关注的一种方法,因为它通常是创建人工智能模型的最后一步,可以用于图像识别、更好的预测、产品推荐和潜在客户评分等方面

相比之下,无监督学习往往在人工智能开发生命周期的早期在幕后工作:它通常被用来为监督学习的魔力展开奠定基础,就像让经理大放异彩的繁重工作一样。正如后面所解释的,这两种机器学习模式都可以有效地应用于业务问题。

在技术层面上,监督学习与无监督学习之间的区别在于用于创建算法的原始数据是预先标记(监督学习)还是未预先标记(无监督学习)。

我们开始吧

什么是监督学习?

在监督学习中,数据科学家会为算法提供标记过的训练数据,并定义他们希望算法评估相关性的变量

算法的输入数据和输出变量都是通过训练数据来指定的。举个例子,如果您想要使用监督学习的方法来训练算法判断一张图片中是否有猫,您可以为每一张在训练数据中使用的图片创建一个标签,来指示这个图像是否含有猫

正如我们在监督学习的定义中所解释的那样:“[A]计算机算法是在为特定输出标记的输入数据上训练的。该模型经过训练,直到它能够检测到输入数据和输出标签之间的基本模式和关系,使其能够在呈现前所未见的数据时产生准确的标记结果。监督算法的常见类型包括分类、决策树、回归和预测建模,您可以在 Arcitura Education 的机器学习教程中了解这些内容。

监督式机器学习技术用于各种业务应用程序,包括以下内容:

  • 个性化营销。
  • 保险/信贷承销决策。
  • 欺诈检测。
  • 垃圾邮件过滤。

什么是无监督学习?

在无监督学习中,有一种适用于此方法的算法(例如K-means聚类),它是在未标记的数据上进行训练的。该算法会扫描数据集,寻找其中的任何有意义的关联。换句话说,无监督学习会确定数据中的模式和相似性,而不是将其与某些外部度量相关联

当您不知道自己在寻找什么时,这种方法很有用,而当您知道时,这种方法就不那么有用了。如果你向无监督算法展示了数千或数百万张图片,它可能会将图片的子集归类为人类识别为猫科动物的图像。相比之下,在猫与犬科动物的标记数据上训练的监督算法能够高度自信地识别猫的图像。但这种方法有一个权衡:如果监督学习项目需要数百万张标记图像来开发模型,那么机器生成的预测需要大量的人力。

有一个中间地带:半监督学习。

什么是半监督学习?

半监督学习是将无监督学习和监督学习结合的一种有效方法。它通过一定的工作流程,使用无监督学习算法自动产生标签,然后将这些标签输入到监督学习算法中。在该方法中,人类手动标记一些图像,而无监督学习算法则猜测其他图像的标签,最终将所有的标签和图像输入到监督学习算法中,从而创建AI模型

半监督学习的一个好处是可以降低在机器学习中使用大规模数据集的成本。根据企业数据目录平台Alation的联合创始人兼首席创新官Aaron Kalb的说法,如果能够让人类对数百万个样本中的0.01%进行标记,计算机就可以利用这些标签来显著提高其预测准确性

监督学习与无监督学习:专家定义差距

什么是强化学习?

另一种机器学习方法是强化学习。强化学习通常用于教机器完成一系列步骤,不同于监督学习和无监督学习。数据科学家对算法进行编程来执行任务,在确定如何完成任务时给予积极或消极的线索或强化。程序员为奖励设定规则,但让算法自己决定需要采取哪些步骤来最大化奖励,从而完成任务。

什么时候应该使用监督学习与无监督学习?

LinkedIn机器学习经理Shivani Rao表示,采用监督或无监督机器学习方法的最佳实践通常取决于环境,你可以对数据和应用程序做出的假设。

Rao说,使用监督学习与无监督机器学习算法的选择也会随着时间的推移而改变。在模型构建过程的早期阶段,数据通常是未标记的,而标记的数据可以在建模的后期阶段出现。

举个例子,对于预测LinkedIn成员是否会观看课程视频的问题,第一个模型采用无监督技术。在提供这些建议后,记录某人是否单击建议的指标将提供新的数据来生成标签

LinkedIn 还使用这种技术来标记学生可能想要获得的技能的在线课程。人工标记者,例如作者、出版商或学生,可以提供课程教授的精确和准确的技能列表,但他们不可能提供此类技能的详尽列表。因此,可以认为这些数据标记不完整。这些类型的问题可以使用半监督技术来帮助构建一组更详尽的标记。

数据科学和高级分析专家、咨询公司科尔尼(Kearney)的合伙人巴拉特·托塔(Bharath Thota)表示,他的团队选择使用监督学习或无监督学习时,也往往会考虑实际因素。

Thota说:“当有可用的标记数据时,我们选择监督学习作为应用程序,目标是预测或分类未来的观察结果。当没有可用的标记数据时,我们使用无监督学习,目标是通过从数据中识别模式或片段来制定策略。”

Kalb说,Alation数据科学家在内部将无监督学习用于各种应用程序。例如,他们开发了一种人机协作流程,用于将晦涩难懂的数据对象名称翻译成人类语言,例如,将“na_gr_rvnu_ps”翻译成“北美专业服务总收入”。在这种情况下,机器猜测,人类确认,机器学习

“你可以把它想象成一个迭代循环中的半监督学习,创造一个提高准确性的良性循环,”Kalb说。

5种无监督学习技巧

在高层次上,监督学习技术倾向于关注线性回归(将模型拟合到一组数据点以进行预测)或分类问题(图像是否有猫?

非监督学习技术通常采用多种方式对原始数据集进行切片和切块,以补充监督学习的工作,这些方式包括:

数据聚类。具有相似特征的数据点组合在一起,以帮助更有效地理解和探索数据。例如,公司可能会使用数据聚类方法根据客户的人口统计、兴趣、购买行为和其他因素将客户细分为几组。

降维。数据集中的每个变量都被视为一个单独的维度。但是,许多模型通过分析变量之间的特定关系来更好地工作。降维的一个简单例子是将利润用作单一维度,它表示收入减去支出——两个独立的维度。但是,可以使用主成分分析、自动编码器、将文本转换为向量的算法或 T 分布随机邻域嵌入等算法生成更复杂的新变量类型。

降维可以帮助减少过度拟合的问题,在这种问题中,模型适用于小数据集,但不能很好地泛化到新数据。该技术还使公司能够以 2D 或 3D 形式可视化人类可以轻松理解的高维数据。

异常或异常值检测。无监督学习可以帮助识别常规数据分布之外的数据点。识别和删除异常作为数据准备步骤可能会提高机器学习模型的性能。

迁移学习。这些算法利用在相关但不同的任务上训练的模型。例如,迁移学习技术可以很容易地微调在维基百科文章上训练的分类器,以使用正确的主题标记任意类型的新文本。LinkedIn的Rao表示,这是解决没有标签的数据问题的最有效,最快捷的方法之一。

基于图形的算法。Rao说,这些技术试图构建一个图表来捕捉数据点之间的关系。例如,如果每个数据点表示具有技能的 LinkedIn 成员,则可以使用图形来表示成员,其中边缘表示成员之间的技能重叠。图形算法还可以帮助将标签从已知数据点转移到未知但密切相关的数据点。无监督学习还可用于在不同类型的实体(源和目标)之间构建图形。边缘越强,源节点与目标节点的亲和力就越高。例如,LinkedIn 使用它们将成员与基于技能的课程相匹配。

到这里,我们也就讲完了《监督学习与无监督学习:专家定义差距》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于人工智能,无监督学习,监督学习的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
应对AI融入企业业务过程中的挑战:企业的解决之道应对AI融入企业业务过程中的挑战:企业的解决之道
上一篇
应对AI融入企业业务过程中的挑战:企业的解决之道
AI 聊天机器人 Claude 2.1 版本发布,新增超 GPT-4 Turbo,支持 20 万个 Token 输入
下一篇
AI 聊天机器人 Claude 2.1 版本发布,新增超 GPT-4 Turbo,支持 20 万个 Token 输入
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    16次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    15次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    43次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    44次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    38次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码