合成数据:机器学习的未来
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《合成数据:机器学习的未来》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
译者 | 布加迪
审校 | 孙淑娟
数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始展现的那样,这时候合成数据就算不是一种出色的选择,也是一种可行的选择。
什么是合成数据?
合成数据是人工生成的信息,不是通过直接测量获得。“假”数据本质上不是新的概念或革命性的概念。它实际上是为缺少正常运行所需的可用或必要信息的模型生成测试或训练数据的一种方法。
过去,缺少数据导致了使用随机生成的一组数据点的便捷方法。尽管这对于教学和测试用途可能已经足够了,但随机数据不是您想要拿来训练任何类型的预测模型的数据。这就是合成数据概念的不同之处,它很可靠。
合成数据本质上是一种独特的概念,即我们可以巧妙地生成随机化数据。因此,这种方法可以应用于更复杂的用例,而不仅仅是测试。
如何生成合成数据?
虽然生成合成数据的方式与随机数据没什么不同——只是通过更复杂的输入集,但合成数据确实有不同的目的,因此有独特的要求。
合成方法基于并仅限于预先作为输入而馈入的某些标准。实际上,它不是随机的。它基于一组具有特定分布和标准的样本数据,这些标准决定了数据点的可能范围、分布和频次。大致说来,目的是复制真实数据以填充更大的数据集,然后该数据集将足够庞大,以便训练机器学习模型。
在探索用于提炼合成数据的深度学习方法时,这种方法变得特别令人关注。算法可以相互竞争,目的是在生成和识别合成数据的能力方面相互超越。实际上,这里的目的是搞一场人工军备竞赛,以生成超现实的数据。
为什么需要合成数据?
如果我们不能收集推进文明所需的宝贵资源,就会找到一种创造宝贵资源的方法。这个原则现在同样适用于机器学习和人工智能的数据领域。
在训练算法时,拥有非常大的数据样本量至关重要,否则算法识别的模式有可能对于实际应用来说过于简单。这实际上非常合乎逻辑。正如人类智能往往采取最容易的途径来解决问题,训练机器学习和人工智能时也经常发生同样的情况。
比如说,不妨将这运用于对象识别算法,该算法可以从一组猫图像中准确识别狗。如果数据量太少,AI就有可能依赖不是它试图识别的对象的基本特征的模式。在这种情况下,AI可能仍然有效,但是遇到不遵循最初识别的模式的数据时,就会失效。
合成数据如何用于训练AI?
那么,解决办法是什么?我们画了很多略有不同的动物,迫使网络找到图像的底层结构,而不仅仅是某些像素的位置。但不是手工绘制一百万条狗,最好构建一个系统,专门用于绘制狗,可用于训练分类算法——这实际上是我们在提供合成数据以便训练机器学习时所做的事情。
然而,这种方法存在明显的缺陷。仅仅凭空生成数据代表不了真实世界,因此会导致算法在遇到真实数据时很可能无法运行。解决方案是收集数据子集,分析和识别其中的趋势和范围,然后使用这些数据生成大量随机数据,这些数据很可能代表我们自行收集所有数据后数据的样子。
这也是合成数据的价值所在。我们再也不必无休止地收集数据,然后在使用之前需要清理和处理这些数据。
合成数据为何能解决日益受到关注的数据隐私问题?
全世界目前正在经历一场非常剧烈的转变,尤其是在欧盟:隐私和所生成的数据越来越受到保护。在机器学习和AI领域,加强数据保护是老大难问题。受限制的数据常常正是训练算法为最终用户执行和提供价值所需要的数据,尤其是对于B2C解决方案而言。
个人决定使用解决方案并因此批准使用他们的数据时,隐私问题通常会得到解决。这里的问题是,在您拥有提供足够价值的解决方案、因而愿意交出个人数据之前,很难让用户向您提供其个人数据。因此,供应商常常会陷入先有鸡还是先有蛋的困境。
合成数据就是解决方案,公司可以通过早期采用者获得数据子集。之后,它们可以使用这些信息作为基础,以便生成足够的数据用于训练机器学习和AI。这种方法可以大大减少对私有数据的费时又费钱的需求,仍可以为实际用户开发算法。
对于医疗保健、银行和法律等某些行业而言,合成数据提供了一种更容易访问以前无法获得的大量数据的方法,消除了新的和更先进的算法通常面临的制约因素。
合成数据能否取代真实数据?
真实数据的问题在于它不是为了训练机器学习和AI算法而生成的,它只是我们周围发生的事件的副产品。如前所述,这显然限制了收集数据的可用性和易用性,还限制了数据的参数和可能破坏结果的缺陷(异常值)的可能性。这就是为什么可以定制和控制的合成数据在训练模型时更高效。
然而,尽管非常适用于训练场景,但合成数据将不可避免地始终依赖至少一小部分真实数据用于自身的创建。所以合成数据永远不会取代它所依赖的初始数据。更现实地说,它将大幅减少算法训练所需的真实数据量,这个过程需要比测试多出一大截的数据——通常80%的数据用于训练,另外20%的数据用于测试。
最后,如果处理得当,合成数据提供了一种更快捷、更有效的方式来获取我们需要的数据,成本比从现实世界获取数据的成本更低,同时减少了烦人的数据隐私问题。
原文标题:Synthetic data: The future of machine learning,作者:Christian Lawaetz Halvorsen
本篇关于《合成数据:机器学习的未来》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 图像算法助力提效转转商品审核

- 下一篇
- 微软深化与 Meta 的 AI 及 PyTorch 合作
-
- 科技周边 · 人工智能 | 10分钟前 |
- MemoAI官网使用教程详解
- 431浏览 收藏
-
- 科技周边 · 人工智能 | 18分钟前 |
- Keras神经网络教程:快速建模入门指南
- 256浏览 收藏
-
- 科技周边 · 人工智能 | 21分钟前 |
- ChatGPT上传PDF方法与分析功能全解析
- 306浏览 收藏
-
- 科技周边 · 人工智能 | 39分钟前 |
- AI冥想工具搭配豆包使用教程
- 159浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- Deepseek满血版搭配Murf,打造自然语音内容
- 410浏览 收藏
-
- 科技周边 · 人工智能 | 50分钟前 |
- Gemini新闻采编自动化全解析
- 175浏览 收藏
-
- 科技周边 · 人工智能 | 54分钟前 |
- 小米YU7五大主驾五大场景模式解析
- 131浏览 收藏
-
- 科技周边 · 人工智能 | 59分钟前 |
- AI+豆包,轻松规划完美旅游行程
- 312浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek自动备份设置方法详解
- 444浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 豆包AI发音工具,轻松练标准发音
- 343浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 113次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 109次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 126次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 118次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 122次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览