AI 入门 101
什么是数据科学?

数据科学领域似乎每天都在变得更大、更受欢迎。根据LinkedIn的数据,数据科学是在2017年增长最快的工作领域之一,2020年,Glassdoor将数据科学家列为美国最好的三种工作之一。考虑到数据科学的日益流行,不难理解为什么越来越多的人对这个领域感兴趣。然而,数据科学到底是什么呢?
让我们来了解数据科学,定义数据科学,探索大数据和人工智能如何改变这个领域,学习一些常见的数据科学工具,并检查一些数据科学的例子。
什么是数据科学?
在我们探索任何数据科学工具或例子之前,我们需要对数据科学有一个明确的定义。
定义“数据科学”其实有点棘手,因为这个术语被应用于许多不同的任务和分析方法。我们可以从回顾“科学”一词的含义开始。科学是通过观察和实验对物理和自然世界进行系统研究,旨在提高我们对自然过程的理解。定义中重要的词是“观察”和“理解”。
如果数据科学是从数据中理解世界的过程,那么数据科学家的责任就是转换数据、分析数据和从数据中提取模式。在其他words中,数据科学家被提供数据,并使用各种工具和技术来预处理数据(使其准备好进行分析),然后分析数据以发现有意义的模式。
数据科学家的角色与传统科学家的角色相似。两者都关心分析数据以支持或驳斥关于世界运作方式的假设,试图理解数据中的模式以提高我们对世界的理解。数据科学家使用与传统科学家相同的科学方法。数据科学家首先收集有关某种现象的观察结果,然后提出关于该现象的假设,并尝试找到数据来否定他们的假设。
如果假设没有被数据驳斥,他们可能能够构建一个理论或模型来解释该现象的工作原理,然后可以通过检查它是否适用于其他类似数据集来测试它。如果模型足够强壮,如果它能够很好地解释模式并且在其他测试中没有被驳斥,它甚至可以用来预测未来事件的发生。
数据科学家通常不会通过实验收集自己的数据。他们通常不会设计具有控制组和双盲试验的实验来发现可能干扰假设的混杂变量。大多数由数据科学家分析的数据都是通过观察研究和系统收集的,这是数据科学家工作与传统科学家工作可能不同的方式,传统科学家往往进行更多的实验。
然而,数据科学家可能会被要求进行一种称为A/B测试的实验形式,其中对收集数据的系统进行修改,以查看数据模式如何变化。
无论使用什么技术和工具,数据科学的最终目标都是通过理解数据来提高我们对世界的理解,而数据是通过观察和实验获得的。数据科学是使用算法、统计原理和各种工具和机器从数据中提取洞察力的过程,这些洞察力帮助我们理解周围世界中的模式。
数据科学家做什么?
您可能会看到,任何涉及以科学方式分析数据的活动都可以称为数据科学,这也是定义数据科学如此困难的原因之一。为了澄清这一点,让我们来探索数据科学家可能每天做的一些活动。

数据科学汇集了不同的学科和专业。照片:Calvin Andrus via Wikimeedia Commons,CC BY SA 3.0(https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
在任何给定的日子里,数据科学家可能会被要求创建数据存储和检索模式,创建数据ETL(提取、转换、加载)管道并清理数据,使用统计方法,制作数据可视化和仪表盘,实现人工智能和机器学习算法,并根据数据做出建议。
让我们把上面列出的任务分解一下。
数据科学家可能需要处理存储和检索数据所需的技术安装,既要注意硬件也要注意软件。这个职位可能也被称为“数据工程师”。然而,一些公司将这些职责纳入数据科学家的角色。数据科学家还可能需要创建或协助创建ETL管道。数据很少以数据科学家需要的格式提供。相反,数据需要以原始形式从数据源接收,转换为可用格式,并预处理(例如,标准化数据,删除冗余数据,删除损坏的数据)。
数据科学的统计方法
统计方法的应用是将简单地查看数据和解释数据转变为真正的科学所必需的。统计方法用于从数据集中提取相关模式,数据科学家需要精通统计概念。他们需要能够区分有意义的相关性和虚假相关性,通过控制混杂变量。他们还需要知道使用哪些工具来确定数据集中哪些特征对他们的模型或具有预测能力很重要。数据科学家需要知道何时使用回归方法,何时使用分类方法,以及何时关心样本的平均值或中位数。没有这些关键技能,数据科学家就不算是一个真正的科学家。
数据可视化
数据科学家工作的一个关键部分是将他们的发现传达给他人。如果数据科学家无法有效地将他们的发现传达给他人,那么他们的发现的影响就无关紧要。数据科学家也应该是一个有效的故事讲述者。这意味着要制作出能够传达数据集和数据中发现的模式的相关信息的可视化图表。有很多不同的数据可视化工具可供数据科学家使用,他们可能会将数据可视化用于初步的探索性数据分析或可视化模型产生的结果。
建议和商业应用
数据科学家需要对其组织或商业的要求和目标有一定的了解。数据科学家需要了解这些事情,因为他们需要知道应该分析哪些类型的变量和特征,探索哪些模式可以帮助其组织实现目标。数据科学家需要意识到他们正在操作的约束和组织领导层所做出的假设。
机器学习和人工智能
机器学习和其他人工智能算法和模型是数据科学家用来分析数据、识别数据中的模式、确定变量之间的关系并预测未来事件的工具。
传统数据科学与大数据科学
随着数据收集方法变得更加复杂,数据库变得更大,传统数据科学和“大数据”科学之间出现了差异。
传统数据分析和数据科学使用描述性和探索性分析,旨在找到模式并分析项目的性能结果。传统数据分析方法通常专注于过去的数据和当前的数据。数据分析师通常处理已经清理和标准化的数据,而数据科学家通常处理复杂和脏数据。更高级的数据分析和数据科学技术可能用于预测未来行为,尽管这通常更常见于大数据,因为预测模型通常需要大量数据来可靠地构建。
“大数据”指的是太大、太复杂而无法使用传统数据分析和科学技术和工具处理的数据。通常通过在线平台收集大数据,并使用高级数据转换工具来使大量数据准备好供数据科学检查。随着更多数据被收集,数据科学家的工作越来越多地涉及大数据的分析。
数据科学工具
常见的数据科学工具包括用于存储数据、进行探索性数据分析、建模数据、执行ETL和可视化数据的工具。像Amazon Web Services、Microsoft Azure和Google Cloud这样的平台提供工具来帮助数据科学家存储、转换、分析和建模数据。还有像Airflow(数据基础设施)和Tableau(数据可视化和分析)这样的独立数据科学工具。
在用于建模数据的机器学习和人工智能算法方面,通常通过数据科学模块和平台提供,如TensorFlow、PyTorch和Azure Machine-learning Studio。这些平台允许数据科学家编辑其数据集、构建机器学习架构并训练机器学习模型。
其他常见的数据科学工具和库包括SAS(用于统计建模)、Apache Spark(用于流数据分析)、D3.js(用于浏览器中的交互式可视化)和Jupyter(用于交互式、可共享的代码块和可视化)。

照片:Seonjae Jo via Flickr,CC BY SA 2.0(https://www.flickr.com/photos/130860834@N02/19786840570)
数据科学的例子
数据科学及其应用的例子无处不在。数据科学在从食品配送、体育、交通到健康等各个领域都有应用。数据无处不在,因此数据科学可以应用于一切。
在食品方面,Uber正在投资扩大其叫车系统,专注于食品配送,称为Uber Eats。Uber Eats需要在食品仍然热乎和新鲜时将其送到人们手中。为了实现这一点,Uber的数据科学家需要使用考虑到距离、假日高峰、烹饪时间和甚至天气条件等因素的统计建模,以优化送货时间。
体育统计数据被球队经理用来确定哪些球员是最好的,并组建强大、可靠的球队,以赢得比赛。一个值得注意的例子是Michael Lewis在《魔球》一书中记录的数据科学,在这本书中,奥克兰运动家队的总经理分析了各种统计数据,以确定哪些球员是高质量的,可以以相对低廉的价格签下他们。
分析交通模式对于创建自动驾驶汽车至关重要。自动驾驶汽车必须能够预测周围的活动并对道路条件的变化做出反应,例如在雨天需要更长的停车距离,以及高峰时段道路上的汽车更多。除了自动驾驶汽车外,像Google Maps这样的应用程序会分析交通模式,以告诉通勤者使用不同路线和交通方式到达目的地需要多长时间。
在健康数据科学方面,计算机视觉通常与机器学习和其他人工智能技术结合使用,创建能够检查X光片、MRI和超声波等图像以确定是否有任何潜在的医疗问题的图像分类器。这些算法可以帮助临床医生诊断疾病。
最终,数据科学涵盖了许多活动,并汇集了不同学科的各个方面。然而,数据科学始终关注于从数据中讲述有趣的故事,并使用数据更好地理解世界。












