当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 你要了解数据科学团队中的这些角色

你要了解数据科学团队中的这些角色

来源:51CTO.COM 2023-05-03 07:26:55 0浏览 收藏

本篇文章给大家分享《你要了解数据科学团队中的这些角色》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

译者 | 李睿

审校 | 孙淑娟

全球知名的流媒体服务商Netflix公司在2017年将其五星级评级系统更改为“拇指向上”(喜欢)和“拇指向下”(不喜欢)简单的评价系统。该系统可以根据百分比匹配来推荐电影,但也有人对这一做法很反感。那么如何将电影艺术中所有的细微差别简化为一种原始的二元反应?    

你要了解数据科学团队中的这些角色

实际上,Netflix公司发现人们对那些他们认为很好的电影给予了很高的评价,但不一定是他们真正喜欢观看的电影。至少数据是这么描述的。那么数据分析在像Netflix这样的公司中是如何工作的?数据科学团队的角色是什么?  

Netflix反馈系统  

Gibson Biddle是Netflix公司的前副总裁兼首席产品官。在谈到消费者洞察时,他对导致整个评级系统发生变化的意外客户行为进行了解释。在转换成百分比匹配时,Netflix表示虽然观众可能喜欢观看亚当·桑德勒主演的喜剧,但给出的评价可能只有三颗星;而观众对观看《辛德勒的名单》这部电影感觉很好,并给出五颗星的评价,但这并不会增加其整体乐趣,让订阅者满意对Netflix来说是至关重要的。因此,他们简化了反馈系统以避免偏差。但是这些对客户的洞察本身就令人印象深刻,如果没有促进数据使用的文化和强大的数据基础设施这个因素,它们是不可能实现的。用技术术语来说,这被称为数据驱动的组织。    

数据驱动的组织

人们可能多次听到“数据驱动”这个流行术语,但它的真正含义是什么?仅Netflix公司每天就记录超过7000亿个事件,从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用tableau或Jupiter等可视化工具访问它,或者他们可以通过大数据门户访问它——这是一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后,这些数据用于制定业务决策,从较小的缩略图(例如展示哪些缩略图)到企业的决策(例如Netflix公司下一步应该投资和推出哪些节目)。  

数据驱动的组织并非只有Netflix公司一家。据估计,财富1000强企业中约有97%的企业投资于人工智能和大数据等项目。以下了解真正的数据基础设施技术和使其运营的数据工程师。

数据基础设施技术

为了描述数据基础设施的工作原理,技术人员借用了通常运输液体或气体的“管道”这一术语。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可能是任何事务,从点击保留按钮和刷新页面到与客户支持的对话记录,从车辆跟踪设备到发电厂的涡轮振动传感器。在当今世界,实际上很难说有什么不能生成数据,即使没有数据也能告诉人们一些事情。

一旦生成数据项,它就会沿着管道到达暂存区域。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果没有做,必须填补空白,更改其格式或合并来自不同来源的数据,以获得更细致的观察。一旦完成这些操作,就会获得结构化和干净的数据。所有这些操作都是自动进行的。它们用两个词语来描述。

  • 提取:从数据源中提取数据并将其送到暂存区域。
  • 转换:准备数据以供使用并加载将准备好的数据进一步推入ETL。

所有准备好的数据都进入另一个存储器,即数据仓库。

数据仓库

与暂存区域不同,数据仓库是所有存储记录都进行结构化并准备使用的地方。就像图书馆的分类系统一样,可以查询、可视化和下载仓库的信息。为此,必须拥有商业智能(BI)软件。它将数据呈现给最终用户。  

数据列表和业务分析师

数据列表和业务分析师是执行基本任务的人员。他们访问数据、探索数据、将其可视化,并尝试使其具有商业意义。例如,企业的营销活动成功吗?表现最差的渠道是什么?它们就像一个感官系统,通过历史数据为企业提供支持,并为管理层以及最终决策者提供见解。

数据工程师

数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源头移动到目的地,并在途中对其进行转换。他们设计管道架构、设置ETL流程、配置仓库,并将其与报告工具连接起来。例如,Airbnb公司拥有约50名数据工程师。该公司有时可能会遇到涉及一些额外规则的更精细的方法。例如,数据质量工程师确保正确捕获和转换数据。当试图从中得出决策时,拥有有偏见或不正确的数据代价太高。可能有单独的工程师仅负责ETL。此外,商业智能开发人员只专注于集成报告和可视化工具。然而,报告工具并不会成为头条新闻,数据工程师也不是21世纪的最佳工作,但机器学习和数据科学家可能是。  

机器学习和数据科学家

众所周知的是,数据科学家特别擅长收集数据并回答有关数据的复杂问题,例如企业下个季度的收入是多少?优步预约的汽车什么时候到达?喜欢《辛德勒名单》和《原钻》的可能性有多大?

实际上有两种方法可以回答这些问题。数据科学家像业务分析师和数据分析师一样使用商业智能工具和仓库数据。所以,他们会从仓库中获取数据。有时数据科学家会使用数据湖:另一种存储非结构化欺诈数据的存储类型。他们将创建一个预测模型,并提出可供管理层使用的预测。它适用于收入估算的一次性报告,但对预测优步预约汽车的到达时间没有帮助。

机器学习的真正价值在于生产模型可以自动工作,并定期生成复杂问题的答案,有时每秒生成数千次,用它们处理的事情要复杂得多。

生产机器学习模型

为了使模型工作,还需要基础设施。有时这是一个很大的问题。数据科学家探索数据仓库和数据湖中的数据,对其进行实验,选择算法,并训练模型以产生最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的理解。

SLAC公司前数据工程负责人Josh Wills在推特上表示,“数据科学家是比任何软件工程都更擅长统计学的人。”

例如订餐者使用ubereats 软件点餐。用户一旦确认订单,该应用程序必须估计交付时间、订餐者的位置、餐厅和订单数据发送到部署了交付预测机器学习模型的服务器。但这些数据还不足够。该模型还从一个单独的数据库中获取额外数据,其中包含餐厅准备的平均时间和其他详细信息。一旦有了所有的数据,模型会向订餐者返回预测。然而,这一过程并没有就此结束。预测本身保存在一个单独的数据库中。它将针对监控模型性能,并通过分析工具探索模型,以便稍后对其进行更新。所有这些数据最终都会出现在数据湖和数据仓库中。  

实际上,仅ubereats订餐服务就使用了数百种不同的模型同时工作,对推荐进行评分,对餐厅进行搜索排名,并估计送货时间。

结论

Foursquare公司核心技术负责人Adam Waxman认为,未来将不再有数据科学家或机器学习工程师这些职位,因为随着模型训练的自动化和持续构建生产环境,许多数据科学家的工作将成为软件开发中的常见功能。

原文标题:Roles in Data Science Teams,作者:Anomi Ragendran

终于介绍完啦!小伙伴们,这篇关于《你要了解数据科学团队中的这些角色》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写
上一篇
火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写
AI在智慧城市的十种应用方式
下一篇
AI在智慧城市的十种应用方式
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    12次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    13次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    26次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    25次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    52次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码