解读CRISP-ML(Q):机器学习生命周期流程
有志者,事竟成!如果你在学习科技周边,那么本文《解读CRISP-ML(Q):机器学习生命周期流程》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
译者 | 布加迪
审校 | 孙淑娟
目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。
图1. 机器学习开发生命周期流程
使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。
CRISP-ML(Q)有六个单独的阶段:
1. 业务和数据理解
2. 数据准备
3. 模型工程
4. 模型评估
5. 模型部署
6. 监控和维护
这些阶段需要不断迭代和探索,以构建更好的解决方案。即使框架中有顺序之分,后一阶段的输出可以决定我们要不要重新检查前一阶段。
图2. 每个阶段的质量保证
质量保证方法被引入到框架的每个阶段。这套方法有要求和约束,比如性能指标、数据质量要求和稳健性。它有助于降低影响机器学习应用程序成功的风险。它可以通过持续监控和维护整个系统来实现。
比如说:在电子商务企业,数据和概念漂移会导致模型退化;如果我们没有部署系统来监控这些变化,公司就会蒙受损失,即失去客户。
业务和数据理解
开发流程一开始,我们需要确定项目范围、成功标准和ML应用程序的可行性。之后,我们开始数据收集和质量验证过程。这个过程漫长而又充满挑战。
范围:我们希望通过使用机器学习流程实现的目标。是留住客户,还是通过自动化降低运营成本?
成功标准:我们必须定义清晰和可衡量的业务、机器学习(统计指标)和经济(KPI)成功指标。
可行性:我们需要确保数据可用性、机器学习应用程序的适用性、法律约束、稳健性、可扩展性、可解释性和资源需求。
数据收集:通过收集数据,对其进行版本控制以实现可重复性,并确保源源不断的真实数据和生成数据。
数据质量验证:通过维护数据描述、要求和验证来确保质量。
为了确保质量和可重复性,我们需要记录数据的统计属性和数据生成过程。
数据准备
第二阶段很简单。我们将为建模阶段准备数据。这包括数据选择、数据清洗、特征工程、数据增强和规范化。
1. 我们从特征选择、数据选择以及通过过采样或欠采样来处理不平衡类入手。
2. 然后,专注于减少噪音和处理缺失值。出于质量保证的目的,我们将添加数据单元测试,以减少错误值。
3. 视模型而定,我们执行特征工程和数据增强,比如独热编码和聚类。
4. 规范化和扩展数据。这可降低特征有偏差的风险。
为了确保可重复性,我们创建了数据建模、转换和特征工程管道。
模型工程
业务和数据理解阶段的约束和要求将决定建模阶段。我们需要了解业务问题以及我们将如何开发机器学习模型来解决这些问题。我们将专注于模型选择、优化和训练,将确保模型性能指标、稳健性、可扩展性、可解释性,并优化存储和计算资源。
1. 模型架构和类似业务问题方面的研究。
2. 定义模型性能指标。
3. 模型选择。
4. 通过整合专家来了解领域知识。
5. 模型训练。
6. 模型压缩和集成。
为确保质量和可重复性,我们将存储模型元数据并进行版本控制,比如模型架构、训练和验证数据、超参数以及环境描述。
最后,我们将跟踪ML试验,并创建ML管道,以创建可重复的训练流程。
模型评估
这是我们测试并确保模型已准备好部署的阶段。
- 我们将在测试数据集上测试模型性能。
- 通过提供随机或虚假数据,评估模型的稳健性。
- 增强模型的可解释性,以满足监管部门要求。
- 自动或请教领域专家,将结果与初始成功指标进行比较。
为了质量保证,评估阶段的每一步都被记录下来。
模型部署
模型部署是我们将机器学习模型集成到现有系统中的阶段。该模型可以部署在服务器、浏览器、软件和边缘设备上。来自模型的预测可用于BI仪表板、API、Web应用程序和插件。
模型部署流程:
- 定义硬件推理。
- 生产环境中的模型评估。
- 确保用户接受和可用性。
- 提供后备方案,最大程度地减少损失。
- 部署策略。
监控和维护
生产环境中的模型需要持续监控和维护。我们将监控模型时效性、硬件性能和软件性能。
持续监控是流程的第一部分;如果性能降到阈值以下,自动做出决定,针对新数据重新训练模型。此外,维护部分不仅限于模型的重新训练。它需要决策机制,获取新数据、更新软硬件以及根据业务用例改进ML流程。
简而言之,就是持续集成、训练和部署ML模型。
结论
训练和验证模型是ML应用程序的一小部分。将最初的想法变成现实需要几个过程。我们在本文中介绍了CRISP-ML(Q) 以及它如何侧重风险评估和质量保证。
我们先定义业务目标、收集和清理数据、构建模型、拿测试数据集验证模型,然后将其部署到生产环境中。
该框架的关键组件是持续监控和维护。我们将监控数据和软硬件指标,以确定是重新训练模型还是升级系统。
如果您不熟悉机器学习操作,想了解更多信息,请阅读DataTalks.Club评述的免费MLOps课程。您将获得所有六个阶段的上手经验,了解CRISP-ML的实际实施。
原文标题:Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process,作者:Abid Ali Awan
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

- 上一篇
- 人工智能如何帮助加强客户隐私

- 下一篇
- OpenAI 联合创始人接受黄仁勋采访:GPT-4 推理能力还没达到预期
-
- 科技周边 · 人工智能 | 6小时前 |
- 即梦ai高清封面导出攻略即梦ai缩略图生成秘籍
- 148浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 尊界S800配置曝光:4座三电机对决5座双电机
- 432浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- RSAC2024速览,20款网络安全新品发布
- 158浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 理想汽车7国招聘副总裁,加速出海战略
- 224浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 10次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 10次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 41次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 38次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 35次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览