当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 合成数据:机器学习的未来

合成数据:机器学习的未来

来源:51CTO.COM 2023-04-24 08:09:15 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《合成数据:机器学习的未来》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!

​译者 | 布加迪

审校 | 孙淑娟

数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始展现的那样,这时候合成数据就算不是一种出色的选择,也是一种可行的选择。

合成数据:机器学习的未来

什么是合成数据?

合成数据是人工生成的信息,不是通过直接测量获得。“假”数据本质上不是新的概念或革命性的概念。它实际上是为缺少正常运行所需的可用或必要信息的模型生成测试或训练数据的一种方法。

过去,缺少数据导致了使用随机生成的一组数据点的便捷方法。尽管这对于教学和测试用途可能已经足够了,但随机数据不是您想要拿来训练任何类型的预测模型的数据。这就是合成数据概念的不同之处,它很可靠。

合成数据本质上是一种独特的概念,即我们可以巧妙地生成随机化数据。因此,这种方法可以应用于更复杂的用例,而不仅仅是测试。

如何生成合成数据?

虽然生成合成数据的方式与随机数据没什么不同——只是通过更复杂的输入集,但合成数据确实有不同的目的,因此有独特的要求。

合成方法基于并仅限于预先作为输入而馈入的某些标准。实际上,它不是随机的。它基于一组具有特定分布和标准的样本数据,这些标准决定了数据点的可能范围、分布和频次。大致说来,目的是复制真实数据以填充更大的数据集,然后该数据集将足够庞大,以便训练机器学习模型。

在探索用于提炼合成数据的深度学习方法时,这种方法变得特别令人关注。算法可以相互竞争,目的是在生成和识别合成数据的能力方面相互超越。实际上,这里的目的是搞一场人工军备竞赛,以生成超现实的数据。

为什么需要合成数据?

如果我们不能收集推进文明所需的宝贵资源,就会找到一种创造宝贵资源的方法。这个原则现在同样适用于机器学习和人工智能的数据领域。

在训练算法时,拥有非常大的数据样本量至关重要,否则算法识别的模式有可能对于实际应用来说过于简单。这实际上非常合乎逻辑。正如人类智能往往采取最容易的途径来解决问题,训练机器学习和人工智能时也经常发生同样的情况。

比如说,不妨将这运用于对象识别算法,该算法可以从一组猫图像中准确识别狗。如果数据量太少,AI就有可能依赖不是它试图识别的对象的基本特征的模式。在这种情况下,AI可能仍然有效,但是遇到不遵循最初识别的模式的数据时,就会失效。

合成数据如何用于训练AI?

那么,解决办法是什么?我们画了很多略有不同的动物,迫使网络找到图像的底层结构,而不仅仅是某些像素的位置。但不是手工绘制一百万条狗,最好构建一个系统,专门用于绘制狗,可用于训练分类算法——这实际上是我们在提供合成数据以便训练机器学习时所做的事情。

然而,这种方法存在明显的缺陷。仅仅凭空生成数据代表不了真实世界,因此会导致算法在遇到真实数据时很可能无法运行。解决方案是收集数据子集,分析和识别其中的趋势和范围,然后使用这些数据生成大量随机数据,这些数据很可能代表我们自行收集所有数据后数据的样子。

这也是合成数据的价值所在。我们再也不必无休止地收集数据,然后在使用之前需要清理和处理这些数据。

合成数据为何能解决日益受到关注的数据隐私问题?

全世界目前正在经历一场非常剧烈的转变,尤其是在欧盟:隐私和所生成的数据越来越受到保护。在机器学习和AI领域,加强数据保护是老大难问题。受限制的数据常常正是训练算法为最终用户执行和提供价值所需要的数据,尤其是对于B2C解决方案而言。

个人决定使用解决方案并因此批准使用他们的数据时,隐私问题通常会得到解决。这里的问题是,在您拥有提供足够价值的解决方案、因而愿意交出个人数据之前,很难让用户向您提供其个人数据。因此,供应商常常会陷入先有鸡还是先有蛋的困境。

合成数据就是解决方案,公司可以通过早期采用者获得数据子集。之后,它们可以使用这些信息作为基础,以便生成足够的数据用于训练机器学习和AI。这种方法可以大大减少对私有数据的费时又费钱的需求,仍可以为实际用户开发算法。

对于医疗保健、银行和法律等某些行业而言,合成数据提供了一种更容易访问以前无法获得的大量数据的方法,消除了新的和更先进的算法通常面临的制约因素。

合成数据能否取代真实数据?

真实数据的问题在于它不是为了训练机器学习和AI算法而生成的,它只是我们周围发生的事件的副产品。如前所述,这显然限制了收集数据的可用性和易用性,还限制了数据的参数和可能破坏结果的缺陷(异常值)的可能性。这就是为什么可以定制和控制的合成数据在训练模型时更高效。

然而,尽管非常适用于训练场景,但合成数据将不可避免地始终依赖至少一小部分真实数据用于自身的创建。所以合成数据永远不会取代它所依赖的初始数据。更现实地说,它将大幅减少算法训练所需的真实数据量,这个过程需要比测试多出一大截的数据——通常80%的数据用于训练,另外20%的数据用于测试。

最后,如果处理得当,合成数据提供了一种更快捷、更有效的方式来获取我们需要的数据,成本比从现实世界获取数据的成本更低,同时减少了烦人的数据隐私问题。

原文标题:Synthetic data: The future of machine learning​,作者:Christian Lawaetz Halvorsen​

本篇关于《合成数据:机器学习的未来》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
图像算法助力提效转转商品审核图像算法助力提效转转商品审核
上一篇
图像算法助力提效转转商品审核
微软深化与 Meta 的 AI 及 PyTorch 合作
下一篇
微软深化与 Meta 的 AI 及 PyTorch 合作
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3212次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3426次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3456次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4565次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3832次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码