Connect with us

AI 101

데이터 사이언스란 무엇인가?

mm

데이터 사이언스 분야는 매일 더욱 커지고 인기를 얻고 있는 것 같습니다. LinkedIn에 따르면, 데이터 사이언스는 2017년 가장 빠르게 성장한 직업 분야 중 하나였으며, 2020년 Glassdoor는 데이터 사이언스 직업을 미국 내 세 가지 최고의 직업 중 하나로 선정했습니다. 데이터 사이언스의 인기가 높아짐에 따라 더 많은 사람들이 이 분야에 관심을 갖게 되는 것은 당연합니다. 그러나 데이터 사이언스가 정확히 무엇일까요? 데이터 사이언스를 정의하고, 빅 데이터와 인공 지능이 이 분야를 어떻게 변화시키는지 탐구하며, 일반적인 데이터 사이언스 도구에 대해 알아보고, 데이터 사이언스의 몇 가지 예를 살펴보면서 데이터 사이언스와 친해져 보겠습니다.

데이터 사이언스란 무엇인가?

데이터 사이언스 도구나 예를 탐구하기 전에, 데이터 사이언스에 대한 간결한 정의를 얻고 싶을 것입니다. “데이터 사이언스”를 정의하는 것은 실제로 약간 까다로운데, 이 용어가 많은 다른 작업과 탐구 및 분석 방법에 적용되기 때문입니다. 우리는 “과학”이라는 용어가 의미하는 바를 상기시키는 것으로 시작할 수 있습니다. 과학은 관찰과 실험을 통해 물리적 및 자연 세계를 체계적으로 연구하여 자연 과정에 대한 인간의 이해를 발전시키는 것을 목표로 합니다. 그 정의에서 중요한 단어는 “관찰”과 “이해”입니다. 데이터 사이언스가 데이터의 패턴으로부터 세계를 이해하는 과정이라면, 데이터 과학자의 책임은 데이터를 변환하고, 분석하며, 데이터로부터 패턴을 추출하는 것입니다. 다시 말해, 데이터 과학자에게 데이터가 제공되면, 그들은 여러 다른 도구와 기술을 사용하여 데이터를 전처리(분석 준비)한 다음 의미 있는 패턴을 위해 데이터를 분석합니다. 데이터 과학자의 역할은 전통적인 과학자의 역할과 유사합니다. 둘 다 세계가 어떻게 작동하는지에 대한 가설을 지지하거나 기각하기 위해 데이터 분석에 관심을 가지며, 데이터의 패턴을 이해하여 세계에 대한 우리의 이해를 향상시키려고 합니다. 데이터 과학자는 전통적인 과학자가 사용하는 것과 동일한 과학적 방법을 활용합니다. 데이터 과학자는 연구하고 싶은 어떤 현상에 대한 관찰을 수집하는 것으로 시작합니다. 그런 다음 해당 현상에 대한 가설을 공식화하고 그들의 가설을 어떤 식으로든 무효화하는 데이터를 찾으려고 합니다. 가설이 데이터에 의해 모순되지 않는다면, 그들은 현상이 어떻게 작동하는지에 대한 이론이나 모델을 구성할 수 있으며, 이 모델이 다른 유사한 데이터 세트에 대해 참인지 확인함으로써 반복적으로 테스트할 수 있습니다. 모델이 충분히 강력하고 패턴을 잘 설명하며 다른 테스트 중에 무효화되지 않는다면, 해당 현상의 미래 발생을 예측하는 데에도 사용될 수 있습니다. 데이터 과학자는 일반적으로 실험을 통해 자신의 데이터를 수집하지 않습니다. 그들은 대개 가설을 방해할 수 있는 교란 변수를 발견하기 위해 통제군과 이중 맹검 시험을 포함한 실험을 설계하지 않습니다. 데이터 과학자가 분석하는 대부분의 데이터는 관찰 연구 및 시스템을 통해 얻은 데이터일 것이며, 이는 데이터 과학자의 직업이 더 많은 실험을 수행하는 경향이 있는 전통적인 과학자의 직업과 다를 수 있는 한 가지 방식입니다. 그렇다고 해서, 데이터 과학자는 데이터 패턴이 어떻게 변하는지 보기 위해 데이터를 수집하는 시스템에 미세 조정을 가하는 A/B 테스트라고 불리는 형태의 실험을 수행하도록 요청받을 수 있습니다. 사용되는 기술과 도구에 관계없이, 데이터 사이언스는 궁극적으로 데이터를 이해함으로써 세계에 대한 우리의 이해를 향상시키는 것을 목표로 하며, 데이터는 관찰과 실험을 통해 얻어집니다. 데이터 사이언스는 알고리즘, 통계적 원리, 다양한 도구 및 기계를 사용하여 데이터로부터 통찰력을 도출하는 과정이며, 이 통찰력은 우리 주변 세계의 패턴을 이해하는 데 도움을 줍니다.

데이터 과학자는 무엇을 하나요?

과학적인 방식으로 데이터 분석을 포함하는 모든 활동을 데이터 사이언스라고 부를 수 있다는 것을 알게 될 수 있는데, 이는 데이터 사이언스를 정의하기 어렵게 만드는 부분입니다. 더 명확하게 하기 위해, 데이터 과학자가 일상적으로 수행할 수 있는 몇 가지 활동을 탐구해 보겠습니다.

데이터 사이언스는 많은 다른 학문과 전문 분야를 함께 모읍니다. 사진: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

어느 날이든, 데이터 과학자는 다음과 같은 요청을 받을 수 있습니다: 데이터 저장 및 검색 스키마 생성, 데이터 ETL(추출, 변환, 로드) 파이프라인 생성 및 데이터 정리, 통계적 방법 적용, 데이터 시각화 및 대시보드 제작, 인공 지능 및 머신러닝 알고리즘 구현, 데이터를 기반으로 한 행동 권장 사항 제안. 위에 나열된 작업을 조금 더 세분화해 보겠습니다. 데이터 과학자는 데이터를 저장하고 검색하는 데 필요한 기술의 설치를 처리해야 할 수 있으며, 하드웨어와 소프트웨어 모두에 주의를 기울입니다. 이 직책을 담당하는 사람은 “데이터 엔지니어“라고도 불릴 수 있습니다. 그러나 일부 회사는 이러한 책임을 데이터 과학자의 역할에 포함시킵니다. 데이터 과학자는 또한 ETL 파이프라인 생성 또는 그 생성에 지원해야 할 수도 있습니다. 데이터는 거의 데이터 과학자가 필요로 하는 형식 그대로 제공되지 않습니다. 대신, 데이터는 데이터 소스로부터 원시 형태로 수신되어 사용 가능한 형식으로 변환되고 전처리(데이터 표준화, 중복 제거, 손상된 데이터 제거 등)되어야 합니다.

데이터 사이언스의 통계적 방법

단순히 데이터를 보고 해석하는 것을 실제 과학으로 바꾸기 위해서는 통계의 적용이 필요합니다. 통계적 방법은 데이터 세트에서 관련 패턴을 추출하는 데 사용되며, 데이터 과학자는 통계 개념에 정통해야 합니다. 그들은 교란 변수를 통제함으로써 의미 있는 상관관계와 허위 상관관계를 구별할 수 있어야 합니다. 또한 데이터 세트의 어떤 특징이 그들의 모델에 중요하고/예측력을 가지는지 결정하기 위해 사용할 올바른 도구를 알아야 합니다. 데이터 과학자는 회귀 접근법 대 분류 접근법을 언제 사용해야 하는지, 표본의 평균 대 중앙값을 언제 신경 써야 하는지 알아야 합니다. 데이터 과학자는 이러한 중요한 기술 없이는 과학자가 될 수 없습니다.

데이터 시각화

데이터 과학자 직업의 중요한 부분은 그들의 발견을 다른 사람들에게 전달하는 것입니다. 데이터 과학자가 그들의 발견을 다른 사람들에게 효과적으로 전달할 수 없다면, 그 발견의 함의는 중요하지 않습니다. 데이터 과학자는 효과적인 스토리텔러여야 합니다. 이는 데이터 세트와 그 안에서 발견된 패턴에 대한 관련 포인트를 전달하는 시각화를 생성하는 것을 의미합니다. 데이터 과학자가 사용할 수 있는 다양한 데이터 시각화 도구가 많이 있으며, 그들은 초기 기본 탐색(탐색적 데이터 분석)을 목적으로 데이터를 시각화하거나 모델이 생성하는 결과를 시각화할 수 있습니다.

권장 사항 및 비즈니스 응용

데이터 과학자는 자신의 조직이나 비즈니스의 요구 사항과 목표에 대한 직관을 어느 정도 가져야 합니다. 데이터 과학자는 분석해야 할 변수와 특징의 유형, 조직이 목표를 달성하는 데 도움이 될 패턴을 탐색하기 위해 이러한 것들을 이해해야 합니다. 데이터 과학자는 그들이 운영하는 제약 조건과 조직 리더십이 가정하고 있는 가정을 인지해야 합니다.

머신러닝과 AI

머신러닝 및 기타 인공 지능 알고리즘과 모델은 데이터 과학자가 데이터를 분석하고, 데이터 내 패턴을 식별하며, 변수 간 관계를 구별하고, 미래 사건에 대한 예측을 하는 데 사용하는 도구입니다.

전통적 데이터 사이언스 대 빅 데이터 사이언스

데이터 수집 방법이 더 정교해지고 데이터베이스가 커짐에 따라, 전통적 데이터 사이언스와 “빅 데이터” 사이언스 사이에 차이가 생겼습니다. 전통적 데이터 분석 및 데이터 사이언스는 기술적 및 탐색적 분석으로 수행되며, 패턴을 찾고 프로젝트의 성과 결과를 분석하는 것을 목표로 합니다. 전통적 데이터 분석 방법은 종종 과거 데이터와 현재 데이터에만 초점을 맞춥니다. 데이터 분석가는 종종 이미 정리되고 표준화된 데이터를 다루는 반면, 데이터 과학자는 종종 복잡하고 지저분한 데이터를 다룹니다. 더 고급 데이터 분석 및 데이터 사이언스 기술은 미래 행동을 예측하는 데 사용될 수 있지만, 예측 모델은 종종 신뢰성 있게 구축하기 위해 대량의 데이터가 필요하기 때문에 이는 더 자주 빅 데이터로 수행됩니다. “빅 데이터”는 전통적 데이터 분석 및 과학 기술과 도구로 처리하기에는 너무 크고 복잡한 데이터를 말합니다. 빅 데이터는 종종 온라인 플랫폼을 통해 수집되며, 고급 데이터 변환 도구를 사용하여 대량의 데이터를 데이터 사이언스 검사를 위해 준비시킵니다. 더 많은 데이터가 항상 수집됨에 따라, 데이터 과학자의 작업 중 더 많은 부분이 빅 데이터 분석을 포함하게 됩니다.

데이터 사이언스 도구

일반적인 데이터 사이언스 도구에는 데이터 저장, 탐색적 데이터 분석 수행, 데이터 모델링, ETL 수행, 데이터 시각화를 위한 도구가 포함됩니다. Amazon Web Services, Microsoft Azure, Google Cloud와 같은 플랫폼은 모두 데이터 과학자가 데이터를 저장, 변환, 분석 및 모델링하는 데 도움이 되는 도구를 제공합니다. 또한 Airflow(데이터 인프라) 및 Tableau(데이터 시각화 및 분석)와 같은 독립형 데이터 사이언스 도구도 있습니다. 데이터 모델링에 사용되는 머신러닝 및 인공 지능 알고리즘 측면에서, 그들은 종종 TensorFlow, PyTorch, Azure Machine-learning studio와 같은 데이터 사이언스 모듈 및 플랫폼을 통해 제공됩니다. 이러한 플랫폼은 데이터 과학자가 데이터 세트를 편집하고, 머신러닝 아키텍처를 구성하며, 머신러닝 모델을 훈련시킬 수 있게 합니다. 다른 일반적인 데이터 사이언스 도구 및 라이브러리에는 SAS(통계 모델링용), Apache Spark(스트리밍 데이터 분석용), D3.js(브라우저에서의 대화형 시각화용), Jupyter(대화형, 공유 가능한 코드 블록 및 시각화용)가 포함됩니다.

사진: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

데이터 사이언스의 예

데이터 사이언스와 그 응용의 예는 어디에나 있습니다. 데이터 사이언스는 음식 배달, 스포츠, 교통, 건강 등 모든 것에 응용됩니다. 데이터는 어디에나 있으므로 데이터 사이언스는 모든 것에 적용될 수 있습니다. 음식 측면에서, Uber는 음식 배달에 초점을 맞춘 차량 공유 시스템 확장에 투자하고 있으며, 그것이 Uber Eats입니다. Uber Eats는 음식이 여전히 뜨겁고 신선할 때 적시에 사람들에게 배달해야 합니다. 이를 위해 회사의 데이터 과학자는 레스토랑에서 배달 지점까지의 거리, 휴일 러시, 조리 시간, 심지어 기상 조건과 같은 측면을 고려하는 통계 모델링을 사용해야 하며, 이 모든 것은 배달 시간을 최적화하는 목표와 함께 고려됩니다. 스포츠 통계는 팀 매니저가 최고의 선수가 누구인지 결정하고 게임에서 승리할 강력하고 신뢰할 수 있는 팀을 구성하는 데 사용됩니다. 한 주목할 만한 예는 Michael Lewis가 머니볼 책에서 기록한 데이터 사이언스로, Oakland Athletics 팀의 단장이 다양한 통계를 분석하여 상대적으로 낮은 비용으로 팀에 계약할 수 있는 우수한 선수를 식별했습니다. 교통 패턴 분석은 자율 주행 차량 생성에 중요합니다. 자율 주행 차량은 주변 활동을 예측하고 비가 올 때 필요한 증가된 정지 거리와 러시아워 동안 도로에 더 많은 차량이 존재하는 것과 같은 도로 조건의 변화에 대응할 수 있어야 합니다. 자율 주행 차량을 넘어서, Google Maps와 같은 앱은 교통 패턴을 분석하여 통근자들에게 다양한 경로와 교통 수단을 사용하여 목적지까지 가는 데 걸리는 시간을 알려줍니다. 건강 데이터 사이언스 측면에서, 컴퓨터 비전은 종종 머신러닝 및 기타 AI 기술과 결합되어 X-ray, FMRI, 초음파와 같은 것을 검사하여 스

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.