AI 101

빅 데이터 란 무엇입니까?

업데이트 on 2022 년 12 월 9 일

빅 데이터 란 무엇입니까?

"빅 데이터"는 현 시대에 흔히 사용되는 유행어 중 하나입니다. 과연 그 의미는 무엇일까요?

다음은 빅 데이터에 대한 빠르고 간단한 정의입니다. 빅 데이터 기존의 데이터 처리 및 저장 방법으로 처리하기에는 너무 크고 복잡한 데이터입니다. 이는 휴리스틱으로 사용할 수 있는 빠른 정의이지만 빅 데이터를 더 깊고 완벽하게 이해하는 데 도움이 됩니다. 저장, 구조 및 처리와 같은 빅 데이터의 근간이 되는 몇 가지 개념을 살펴보겠습니다.

빅데이터는 얼마나 큰가?

'X' 이상의 데이터는 모두 빅데이터'라는 말처럼 간단하지 않은데, 데이터가 처리되는 환경은 매우 중요한 요소입니다. 무엇이 빅 데이터로 적합한지 결정. 빅 데이터로 간주되기 위해 필요한 데이터의 크기는 컨텍스트 또는 데이터가 사용되는 작업에 따라 다릅니다. 크기가 크게 다른 두 데이터 세트는 서로 다른 컨텍스트에서 "빅 데이터"로 간주될 수 있습니다.

더 구체적으로 말하면, 200메가바이트 파일을 이메일 첨부파일로 보내려고 하면 전송이 되지 않습니다. 이러한 맥락에서 200메가바이트 파일은 빅 데이터로 간주될 수 있습니다. 반면에 200메가바이트 파일을 같은 LAN에 있는 다른 장치에 복사하는 데는 시간이 전혀 걸리지 않을 수 있으며 그런 맥락에서 빅 데이터로 간주되지 않습니다.

그러나 컴퓨터 비전 애플리케이션 교육에 사용하기 위해 15테라바이트 상당의 비디오를 사전 처리해야 한다고 가정해 보겠습니다. 이 경우 비디오 파일은 용량을 많이 차지하므로 강력한 컴퓨터라도 모두 처리하는 데 시간이 오래 걸리므로 처리 시간을 줄이기 위해 일반적으로 서로 연결된 여러 대의 컴퓨터에 처리가 분산됩니다. 이러한 15테라바이트의 비디오 데이터는 확실히 빅 데이터의 자격을 갖습니다.

빅 데이터 구조의 유형

빅 데이터는 비정형 데이터, 반정형 및 정형 데이터의 세 가지 구조 범주로 나뉩니다.

구조화되지 않은 데이터는 정의할 수 있는 구조가 없는 데이터입니다. 즉, 데이터는 본질적으로 하나의 대규모 풀에만 있습니다. 구조화되지 않은 데이터의 예로는 레이블이 지정되지 않은 이미지로 가득 찬 데이터베이스가 있습니다.

반구조화된 데이터는 공식적인 구조가 없지만 느슨한 구조 내에 존재하는 데이터입니다. 예를 들어 이메일 데이터는 개별 이메일에 포함된 데이터를 참조할 수 있지만 공식적인 데이터 패턴이 설정되지 않았기 때문에 반구조화된 데이터로 간주될 수 있습니다.

구조화된 데이터는 서로 다른 기능으로 분류된 데이터 포인트가 있는 공식적인 구조를 가진 데이터입니다. 구조화된 데이터의 한 예는 이름, 이메일, 전화번호 및 웹사이트와 같은 연락처 정보가 포함된 Excel 스프레드시트입니다.

이러한 데이터 유형의 차이점에 대해 자세히 알아보려면 여기 링크를 확인하세요.

빅 데이터 평가를 위한 지표

빅 데이터는 볼륨, 속도 및 다양성의 세 가지 메트릭으로 분석할 수 있습니다.

볼륨은 데이터의 크기를 나타냅니다. 데이터 세트의 평균 크기는 종종 증가하고 있습니다. 예를 들어, 2006년에 가장 큰 하드 드라이브는 750GB 하드 드라이브였습니다. 대조적으로 Facebook은 하루에 500테라바이트 이상의 데이터를 생성하는 것으로 생각되며 오늘날 사용 가능한 가장 큰 소비자 하드 드라이브는 16테라바이트 하드 드라이브입니다. 한 시대에 빅 데이터로 정량화된 것이 다른 시대에는 빅 데이터가 아닐 수도 있습니다. 오늘날 우리 주변의 점점 더 많은 물체에 센서, 카메라, 마이크 및 기타 데이터 수집 장치가 장착되어 있기 때문에 더 많은 데이터가 생성됩니다.

Velocity는 데이터가 얼마나 빨리 이동하는지, 다시 말해 주어진 시간 내에 얼마나 많은 데이터가 생성되는지를 의미합니다. 소셜 미디어 스트림은 매분 수십만 개의 게시물과 댓글을 생성하는 반면, 자신의 이메일 받은 편지함은 활동이 훨씬 적을 것입니다. 빅 데이터 스트림은 종종 수십만 또는 수백만 개의 이벤트를 거의 실시간으로 처리하는 스트림입니다. 이러한 데이터 스트림의 예로는 온라인 게임 플랫폼과 고주파 주식 거래 알고리즘이 있습니다.

다양성은 데이터 세트에 포함된 다양한 유형의 데이터를 나타냅니다. 데이터는 오디오, 비디오, 텍스트, 사진 또는 일련 번호와 같은 다양한 형식으로 구성될 수 있습니다. 일반적으로 기존 데이터베이스는 하나 또는 몇 가지 유형의 데이터를 처리하도록 형식이 지정됩니다. 다시 말해 기존 데이터베이스는 상당히 동질적이고 일관되고 예측 가능한 구조의 데이터를 보유하도록 구성되어 있습니다. 응용 프로그램이 더욱 다양해지고 다양한 기능이 추가되고 더 많은 사람들이 사용함에 따라 데이터베이스는 더 많은 유형의 데이터를 저장하도록 진화해야 했습니다. 구조화되지 않은 데이터베이스는 서로 관련이 없는 여러 데이터 유형을 보유할 수 있으므로 빅 데이터를 보유하는 데 이상적입니다.

빅 데이터 처리 방법

빅 데이터 분석을 용이하게 하도록 설계된 다양한 플랫폼과 도구가 있습니다. 데이터에서 의미 있는 패턴을 추출하기 위해 빅 데이터 풀을 분석해야 하는데, 이는 기존의 데이터 분석 도구로는 상당히 어려울 수 있는 작업입니다. 많은 양의 데이터를 분석할 수 있는 도구의 필요성에 대응하여 다양한 기업에서 빅데이터 분석 도구를 만들었습니다. 빅 데이터 분석 도구에는 ZOHO Analytics, Cloudera 및 Microsoft BI와 같은 시스템이 포함됩니다.