存根 什么是数据科学? - 联合人工智能
关注我们.

AI 101

什么是数据科学?

mm
更新 on

数据科学领域似乎每天都在变得越来越大、越来越受欢迎。 根据 LinkedIn 的数据,数据科学 是2017年增长最快的就业领域之一 2020 年,Glassdoor 将数据科学工作列为 美国最好的三份工作之一。 鉴于数据科学日益普及,越来越多的人对该领域产生兴趣也就不足为奇了。 然而数据科学到底是什么?

让我们熟悉数据科学,花一些时间来定义数据科学,探索大数据和人工智能如何改变该领域,了解一些常见的数据科学工具,并研究一些数据科学的示例。

什么是数据科学?

在我们探索任何数据科学工具或示例之前,我们需要获得一个简洁的定义 数据科学.

定义“数据科学”实际上有点棘手,因为该术语适用于许多不同的任务以及查询和分析方法。 我们可以首先提醒自己“科学”一词的含义。 科学是通过观察和实验对物理和自然世界进行系统研究,旨在增进人类对自然过程的理解。 该定义中的重要词语是“观察”和“理解”。

如果数据科学是从数据模式理解世界的过程,那么 数据科学家的责任 就是转换数据、分析数据并从数据中提取模式。 换句话说,数据科学家获得了数据,他们使用许多不同的工具和技术来预处理数据(为分析做好准备),然后分析数据以获得有意义的模式。

数据科学家的角色与传统科学家的角色类似。 两者都与数据分析有关 支持或拒绝假设 关于世界如何运作,试图理解数据中的模式以提高我们对世界的理解。 数据科学家使用与传统科学家相同的科学方法。 数据科学家首先收集他们想要研究的一些现象的观察结果。 然后,他们对所讨论的现象提出假设,并尝试找到以某种方式推翻其假设的数据。

如果假设与数据不矛盾,他们也许能够构建一个关于现象如何运作的理论或模型,他们可以通过查看它是否适用于其他类似的数据集来不断地进行测试。 如果一个模型足够稳健,如果它能很好地解释模式并且在其他测试中没有失效,它甚至可以用来预测该现象的未来发生。

数据科学家通常不会通过实验收集自己的数据。 他们通常不会设计带有对照和双盲试验的实验来发现可能干扰假设的混杂变量。 数据科学家分析的大多数数据都是通过观察研究和系统获得的数据,这是数据科学家的工作可能与传统科学家的工作不同的一种方式,传统科学家往往会进行更多的实验。

也就是说,数据科学家可能会被要求进行某种形式的实验 称为 A/B 测试 对收集数据的系统进行调整以查看数据模式如何变化。

无论使用何种技术和工具,数据科学的最终目标是通过理解数据来提高我们对世界的理解,而数据是通过观察和实验获得的。 数据科学是使用算法、统计原理以及各种工具和机器从数据中获取见解的过程,这些见解可以帮助我们理解周围世界的模式。

数据科学家做什么?

您可能会发现,任何涉及以科学方式分析数据的活动都可以称为数据科学,这也是定义数据科学如此困难的部分原因。 为了更清楚地说明这一点,让我们探讨一下数据科学家的一些活动 可能做 以一天为周期。

数据科学将许多不同的学科和专业结合在一起。 照片:Calvin Andrus,来自 Wikimeedia Commons,CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

在任何一天,数据科学家可能会被要求:创建数据存储和检索模式,创建数据 ETL(提取、转换、加载)管道并清理数据,采用统计方法,制作数据可视化和仪表板,实施人工智能和机器学习算法,根据数据提出行动建议。

让我们稍微分解一下上面列出的任务。

数据科学家可能需要处理存储和检索数据所需的技术安装,同时关注硬件和软件。 该职位的负责人也可称为“数据工程师”。 然而,一些公司将这些职责归入数据科学家的角色之下。 数据科学家可能还需要创建或协助创建: ETL管道。 数据很少能按照数据科学家的需要进行格式化。 相反,需要从数据源以原始形式接收数据,将其转换为可用格式并进行预处理(例如标准化数据、删除冗余和删除损坏的数据)。

数据科学的统计方法

统计的应用 有必要将简单地查看数据并将其解释为一门实际的科学。 统计方法 用于从数据集中提取相关模式,数据科学家需要精通统计概念。 他们需要能够通过控制混杂变量来区分有意义的相关性和虚假相关性。 他们还需要知道使用正确的工具来确定数据集中的哪些特征对其模型很重要/具有预测能力。 数据科学家需要知道何时使用回归方法和分类方法,以及何时关心样本的平均值和样本的中位数。 如果没有这些关键技能,数据科学家就不会成为科学家。

数据可视化

数据科学家工作的一个重要部分是将他们的发现传达给其他人。 如果数据科学家无法有效地将他们的发现传达给其他人,那么他们的发现的影响就不重要了。 数据科学家也应该是一个有效的讲故事的人。 这意味着生成可视化来传达有关数据集及其中发现的模式的相关点。 有大量不同的 数据可视化 数据科学家可能使用的工具,他们可以出于初始、基本探索(探索性数据分析)的目的可视化数据,或可视化模型产生的结果。

建议和业务应用

数据科学家需要对其组织或业务的要求和目标有一定的直觉。 数据科学家需要了解这些事情,因为他们需要知道应该分析哪些类型的变量和特征,探索有助于其组织实现目标的模式。 数据科学家需要了解他们所面临的限制以及组织领导层所做的假设。

机器学习与AI

机器识别 以及其他人工智能算法和模型是数据科学家用来分析数据、识别数据中的模式、辨别变量之间的关系以及对未来事件进行预测的工具。

传统数据科学与大数据科学

随着数据收集方法变得更加复杂和数据库规模越来越大,传统数据科学和数据科学之间出现了差异。 “大数据” 科学。

传统的数据分析和数据科学是通过描述性和探索性分析来完成的,旨在发现模式并分析项目的绩效结果。 传统的数据分析方法通常只关注过去的数据和当前的数据。 数据分析师经常处理已经清理和标准化的数据,而数据科学家经常处理复杂和脏数据。 更先进的数据分析和数据科学技术可以用于预测未来的行为,尽管这通常是通过大数据来完成的,因为预测模型通常需要可靠地构建大量数据。

“大数据”是指太大、太复杂而无法用传统数据分析和科学技术和工具处理的数据。 大数据通常通过在线平台收集,并使用先进的数据转换工具使大量数据可供数据科学检查。 随着越来越多的数据不断被收集,数据科学家的工作越来越多地涉及大数据分析。

数据科学工具

通用数据科学 工具 包括存储数据、执行探索性数据分析、建模数据、执行 ETL 和可视化数据的工具。 Amazon Web Services、Microsoft Azure 和 Google Cloud 等平台都提供了帮助数据科学家存储、转换、分析和建模数据的工具。 还有独立的数据科学工具,例如 Airflow(数据基础设施)和 Tableau(数据可视化和分析)。

就用于数据建模的机器学习和人工智能算法而言,它们通常通过 TensorFlow、PyTorch 和 Azure 机器学习工作室等数据科学模块和平台提供。 这些平台(例如数据科学家)对其数据集进行编辑、构建机器学习架构并训练机器学习模型。

其他常见的数据科学工具和库包括 SAS(用于统计建模)、Apache Spark(用于分析流数据)、D3.js(用于浏览器中的交互式可视化)和 Jupyter(用于交互式、可共享的代码块和可视化) 。

照片:Seonjae Jo,来自 Flickr,CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

数据科学的例子

数据科学及其应用的例子无处不在。 数据科学在食品配送、体育、交通和健康等各个领域都有应用。 数据无处不在,因此数据科学可以应用于一切。

在食品方面,优步正在投资扩展其乘车共享系统,重点是食品配送, Uber Eats。 Uber Eats 优食需要在食物仍然热腾腾、新鲜的情况下及时为人们提供食物。 为了实现这一目标,该公司的数据科学家需要使用统计模型,考虑到餐厅到送货点的距离、假期高峰、烹饪时间,甚至天气条件等方面,所有这些都是为了优化送货时间。

球队经理利用体育统计数据来确定谁是最好的球员,并组建强大、可靠的球队来赢得比赛。 一个值得注意的例子是 Michael Lewis 在书中记录的数据科学 魔球,奥克兰运动队总经理分析了各种统计数据,以确定可以以相对较低的成本签入球队的优质球员。

交通模式分析对于创建自动驾驶车辆至关重要。 自动驾驶汽车 必须能够预测周围的活动并对路况的变化做出反应,例如下雨时所需的停车距离增加,以及高峰时段道路上出现更多的汽车。 除了自动驾驶车辆之外,谷歌地图等应用程序还可以分析交通模式,告诉通勤者使用各种路线和交通方式到达目的地需要多长时间。

健康数据科学计算机视觉通常与机器学习和其他人工智能技术相结合,创建能够检查 X 射线、FMRI 和超声波等内容的图像分类器,以查看扫描中是否存在任何潜在的医疗问题。这些算法可用于帮助临床医生诊断疾病。

最终,数据科学涵盖了众多活动,并将不同学科的各个方面结合在一起。 然而,数据科学始终关注从数据中讲述引人入胜、有趣的故事,并利用数据更好地理解世界。

博主和程序员,擅长 机器学习 深度学习 主题。 丹尼尔希望帮助其他人利用人工智能的力量造福社会。