Connect with us

AI 入门 101

什么是数据科学?

mm

数据科学领域似乎每天都在变得更大、更受欢迎。根据LinkedIn的说法,数据科学是在2017年增长最快的职位领域之一,并且在2020年,Glassdoor将数据科学家的工作排为美国最好的三种工作之一。考虑到数据科学的日益流行,不奇怪的是越来越多的人对这个领域感兴趣。然而,什么是数据科学呢?

让我们花点时间来了解数据科学,定义数据科学,探索大数据和人工智能如何改变这个领域,了解一些常见的数据科学工具,并检查一些数据科学的例子。

什么是数据科学?

在我们探索任何数据科学工具或例子之前,我们需要对数据科学有一个简洁的定义。

定义“数据科学”其实有点棘手,因为这个术语被应用于许多不同的任务和方法。我们可以从提醒自己“科学”的含义开始。科学是通过观察和实验来系统地研究物理和自然世界,旨在提高我们对自然过程的理解。定义中的重要词语是“观察”和“理解”。

如果数据科学是从数据中理解世界的过程,那么数据科学家的责任就是转换数据、分析数据和从数据中提取模式。换句话说,数据科学家被提供数据,并使用各种工具和技术来预处理数据(使其准备好进行分析),然后分析数据以发现有意义的模式。

数据科学家的角色与传统科学家的角色相似。两者都关心分析数据以支持或驳斥关于世界如何运作的假设,试图理解数据中的模式以提高我们对世界的理解。数据科学家使用与传统科学家相同的科学方法。数据科学家首先收集他们想研究的现象的观察结果。他们然后对该现象提出假设,并尝试找到数据来以某种方式否定他们的假设。

如果假设没有被数据驳斥,他们可能能够构建一个理论或模型来解释该现象的工作原理,他们可以继续通过查看它是否适用于其他类似的数据集来测试它。如果一个模型足够强壮,如果它能够很好地解释模式,并且在其他测试中没有被驳斥,它甚至可以用来预测该现象的未来发生。

数据科学家通常不会通过实验收集自己的数据。他们通常不会设计具有控制和双盲试验的实验来发现可能干扰假设的混杂变量。大多数由数据科学家分析的数据都是通过观察研究和系统收集的,这是数据科学家工作与传统科学家工作可能不同的方式,传统科学家往往进行更多的实验。

话虽如此,数据科学家可能会被要求进行一种称为A/B测试的实验式工作,在这种测试中,会对收集数据的系统进行调整,以查看数据模式如何变化。

无论使用什么技术和工具,数据科学的最终目标都是通过从数据中提取有意义的信息来提高我们对世界的理解,数据是通过观察和实验获得的。数据科学是使用算法、统计原理和各种工具和机器从数据中提取见解的过程,帮助我们理解周围世界中的模式。

数据科学家做什么?

您可能会看到,任何以科学方式分析数据的活动都可以被称为数据科学,这也是定义数据科学如此困难的原因之一。为了澄清这一点,让我们探索数据科学家可能每天做的活动。

数据科学汇集了许多不同的学科和专业。照片:Calvin Andrus via Wikimeedia Commons,CC BY SA 3.0(https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

在任何给定的日子里,数据科学家可能会被要求:创建数据存储和检索模式,创建数据ETL(提取、转换、加载)管道和清理数据,使用统计方法,制作数据可视化和仪表盘,实现人工智能和机器学习算法,并根据数据做出建议。

让我们把上面列出的任务分解一下。

数据科学家可能需要处理存储和检索数据所需的技术的安装,考虑硬件和软件。这个职位可能也被称为“数据工程师”。然而,一些公司将这些职责纳入数据科学家的角色。数据科学家可能还需要创建或协助创建ETL管道。数据很少以数据科学家需要的格式提供。相反,数据需要以原始形式从数据源接收,转换为可用的格式,并预处理(例如,标准化数据,删除冗余数据,删除损坏的数据)。

数据科学的统计方法

统计的应用是将简单地查看数据和解释数据转变为真正的科学所必需的。统计方法用于从数据集中提取相关模式,数据科学家需要精通统计概念。他们需要能够区分有意义的相关性和虚假相关性,通过控制混杂变量。他们还需要知道使用哪些工具来确定数据集中哪些特征对其模型/具有预测能力很重要。数据科学家需要知道何时使用回归方法与分类方法,以及何时关心样本的均值与样本的中位数。没有这些关键技能,数据科学家就不会成为科学家。

数据可视化

数据科学家的关键任务是将他们的发现传达给他人。如果数据科学家无法有效地向他人传达他们的发现,那么他们的发现的影响就无关紧要。数据科学家应该是一个有效的故事讲述者。这意味着生产出能够传达数据集和数据中发现的模式的相关点的可视化。有大量不同的数据可视化工具可供数据科学家使用,他们可能会出于初步、基本的探索(探索性数据分析)或可视化模型产生的结果的目的来可视化数据。

建议和商业应用

数据科学家需要对其组织或业务的要求和目标有一定的直觉。数据科学家需要了解这些事情,因为他们需要知道他们应该分析哪些变量和特征,这些模式将帮助他们的组织实现其目标。数据科学家需要意识到他们正在操作的约束和组织领导层所做出的假设。

机器学习和人工智能

机器学习和其他人工智能算法和模型是数据科学家用来分析数据、识别数据中的模式、确定变量之间的关系并预测未来事件的工具。

传统数据科学与大数据科学

随着数据收集方法变得更加复杂,数据库变得更大,传统数据科学和“大数据”科学之间出现了差异。

传统数据分析和数据科学是使用描述性和探索性分析完成的,旨在找到模式并分析项目的性能结果。传统数据分析方法通常关注过去的数据和当前的数据。数据分析师通常处理已经清理和标准化的数据,而数据科学家通常处理复杂和脏的数据。更高级的数据分析和数据科学技术可能用于预测未来行为,尽管这通常是在大数据中完成的,因为预测模型通常需要大量数据来可靠地构建。

“大数据”指的是无法使用传统数据分析和科学技术和工具处理的数据。通常通过在线平台收集大数据,并使用高级数据转换工具使大量数据准备好供数据科学家检查。随着不断收集更多数据,数据科学家的工作越来越多地涉及大数据的分析。

数据科学工具

常见的数据科学工具包括用于存储数据、进行探索性数据分析、建模数据、执行ETL和可视化数据的工具。像Amazon Web Services、Microsoft Azure和Google Cloud这样的平台提供了帮助数据科学家存储、转换、分析和建模数据的工具。还有像Airflow(数据基础设施)和Tableau(数据可视化和分析)这样的独立数据科学工具。

在用于建模数据的机器学习和人工智能算法方面,通常通过数据科学模块和平台(如TensorFlow、PyTorch和Azure Machine Learning Studio)提供。这些平台允许数据科学家编辑其数据集、组成机器学习架构并训练机器学习模型。

其他常见的数据科学工具和库包括SAS(用于统计建模)、Apache Spark(用于流数据分析)、D3.js(用于浏览器中的交互式可视化)和Jupyter(用于交互式、可共享的代码块和可视化)。

照片:Seonjae Jo via Flickr,CC BY SA 2.0(https://www.flickr.com/photos/130860834@N02/19786840570)

数据科学的例子

数据科学及其应用的例子无处不在。数据科学在从食品配送、体育、交通到健康等一切领域都有应用。数据无处不在,因此数据科学可以应用于一切。

在食品方面,Uber正在投资扩大其叫车系统,专注于食品配送,Uber Eats。Uber Eats需要在食品仍然热乎和新鲜的时候将食品送到人们手中。为了实现这一点,Uber的数据科学家需要使用考虑到距离、节假日、烹饪时间、甚至天气条件等因素的统计建模,以优化送货时间。

体育统计被球队经理用来确定哪些是最好的球员,并组建强大、可靠的团队来赢得比赛。一个值得注意的例子是Michael Lewis在《魔球》一书中记录的数据科学,在这本书中,奥克兰运动家队的总经理分析了各种统计数据,以确定可以以相对低成本签下的优秀球员。

分析交通模式对于创建自动驾驶车辆至关重要。自动驾驶车辆必须能够预测周围的活动,并对道路条件的变化做出反应,例如在下雨时需要更长的停车距离,以及在高峰时段道路上的车辆更多。除了自动驾驶车辆外,像Google Maps这样的应用程序会分析交通模式,以告诉通勤者使用不同路线和交通方式到达目的地需要多长时间。

在健康数据科学方面,计算机视觉通常与机器学习和其他人工智能技术结合使用,创建能够检查X光片、功能性磁共振成像和超声波等图像以检测潜在的医疗问题的图像分类器。这些算法可以用来帮助临床医生诊断疾病。

最终,数据科学涵盖了众多活动,并汇集了不同学科的各个方面。然而,数据科学始终关注从数据中讲述引人入胜、有趣的故事,并使用数据来更好地理解世界。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。