Tekoäly

Mitä on Big Data?

mm

Mitä on Big Data?

“Big Data” on yksi nykyajan yleisimmin käytetyistä buuzzan sanoista, mutta mitä se todella tarkoittaa?

Tässä on nopea ja yksinkertainen määritelmä big datasta. Big data on dataa, joka on liian suurta ja monimutkaista käsiteltäväksi perinteisin tiedonkäsittely- ja tallennusmenetelmin. Vaikka tämä on nopea määritelmä, jota voit käyttää viitekehyksenä, olisi hyödyllistä saada syvempi ja täydellisempi ymmärrys big datasta. Tarkastellaan joitakin käsitteitä, jotka liittyvät big dataan, kuten tallennus, rakenne ja käsittely.

Kuinka suuri on Big Data?

Se ei ole yhtä yksinkertaista kuin sanoa ”kaikki data, jonka koko on yli ’X’ on big data”, ympäristö, jossa dataa käsitellään, on erittäin tärkeä tekijä määrittämään, mitä voidaan pitää big dataksi. Kokoa, joka datasta on big dataksi, riippuu kontekstista tai tehtävästä, jossa dataa käytetään. Kaksi eri kokoista tietojoukkoa voidaan pitää ”big dataksi” eri konteksteissa.

Olemme konkreettisemmin, jos yrität lähettää 200 megatavun tiedoston sähköpostiliitteenä, et pystyisi siihen. Tässä kontekstissa 200 megatavun tiedosto voitaisiin pitää big dataksi. Sen sijaan, jos kopioit 200 megatavun tiedoston toiseen laitteeseen samassa LAN-verkossa, se ei kestäisi aikaa, eikä sitä pidettäisi big dataksi.

Oletetaan kuitenkin, että 15 teratavun verran videoita on esikäsiteltävä käytettäväksi tietokoneen näön sovelluksissa. Tässä tapauksessa videotiedostot vievät niin paljon tilaa, että jopa voimakas tietokone veisi kauan aikaa käsitelläkseen ne kaikki, ja käsittely jaetaan useiden tietokoneiden välille, jotka on kytketty toisiinsa prosessointiajan vähentämiseksi. Nämä 15 teratavun videodata olisivat ehdottomasti big dataa.

Big Data -rakenteiden tyypit

Big data on kolmea eri kategoriassa olevaa rakennetta: ei-strukturoidun tiedon, puolistrukturoidun ja strukturoidun tiedon.

Ei-strukturoidun tieto on tietoa, jolla ei ole määriteltävissä olevaa rakennetta, mikä tarkoittaa, että tieto on perustavasti vain yhdessä suuressa joukossa. Esimerkkejä ei-strukturoidusta tiedosta olisivat tietokanta, joka on täynnä merkintöjä kuvista.

Puolistrukturoidun tieto on tietoa, jolla ei ole virallista rakennetta, mutta joka on olemassa löyhässä rakenteessa. Esimerkiksi sähköpostidata voisi olla puolistrukturoidun tiedon esimerkki, koska voit viitata yksittäisten sähköpostien sisältämään tietoon, mutta virallisia tietomalleja ei ole määritelty.

Strukturoitu tieto on tietoa, jolla on virallinen rakenne, ja tiedon osat on luokiteltu eri ominaisuuksien mukaan. Yksi esimerkki strukturoidusta tiedosta on Excel-taulukko, joka sisältää yhteystietoja, kuten nimiä, sähköpostiosoitteita, puhelinnumeroita ja verkkosivuja.

Jos haluat lukea lisää näiden tietotyyppien eroista, tarkastele linkkiä täältä.

Big Data -arviointiin käytettävät mittarit

Big dataa voidaan analysoida kolmen eri mittarin avulla: tilavuus, nopeus ja monimuotoisuus.

Tilavuus viittaa tiedon koosta. Tietojoukkojen keskikoko on usein kasvamassa. Esimerkiksi vuonna 2006 suurin kiintolevy oli 750 gigatavun kiintolevy. Sen sijaan Facebookin arvioidaan tuottavan yli 500 teratavun verran dataa päivässä ja suurin kuluttajien kiintolevy on tänään 16 teratavun kiintolevy. Se, mikä määritellään big dataksi yhdessä ajassa, ei välttämättä ole big data toisessa ajassa. Nykyään tuotetaan enemmän dataa, koska yhä useammat meidän ympärillämme olevat esineet on varustettu antureilla, kameroina, mikrofoneina ja muilla datakeräyslaitteilla.

Nopeus viittaa siihen, kuinka nopeasti data liikkuu, tai toisin sanoen, kuinka paljon dataa tuotetaan tietyn ajanjakson aikana. Sosiaalisen median virtaukset tuottavat satoja tuhansia viestejä ja kommentteja joka minuutti, kun taas oma sähköpostilaatikko on todennäköisesti paljon vähemmän aktiivinen. Big data -virtaukset ovat virtauksia, jotka usein käsittelevät satoja tuhansia tai miljoonia tapahtumia lähes reaaliajassa. Esimerkkejä näistä data-virtauksista ovat online-pelialustat ja korkean taajuisen osakekaupan algoritmit.

Monimuotoisuus viittaa eri tyyppisiin tietoihin, jotka sisältyvät tietojoukkoon. Dataa voidaan muodostaa monista eri muodoista, kuten äänestä, videosta, tekstistä, valokuvista tai sarjanumeroista. Yleensä perinteiset tietokannat on muotoiltu käsittelemään yhtä tai vain muutamia tietotyyppejä. Toisin sanoen perinteiset tietokannat on suunniteltu sisältämään dataa, joka on melko homogeenista ja jolla on ennustettavissa oleva rakenne. Sovellusten monimuotoistuessa, monien ominaisuuksien ja käyttäjien määrän kasvaessa tietokantojen on täytynyt kehittyä tallentamaan useita tietotyyppejä. Ei-strukturoidut tietokannat ovat ihanteellisia big dataa varten, koska ne voivat sisältää useita tietotyyppejä, jotka eivät liity toisiinsa.

Big Data -käsittelymenetelmät

On olemassa useita eri alustoja ja työkaluja, jotka on suunniteltu big data -analytiikkaa varten. Big data -joukkoja on analysoitava, jotta voidaan löytää merkityksellisiä malleja tiedoista, tehtävä, joka voi osoittautua haasteelliseksi perinteisten data-analyysityökalujen kanssa. Big data -analyysityökalujen tarpeen vuoksi useat yritykset ovat luoneet big data -analyysityökaluja. Big data -analyysityökaluihin kuuluvat järjestelmät kuten ZOHO Analytics, Cloudera ja Microsoft BI.

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.