AI 101

Mi a Big Data?

korszerűsített on December 9, 2022

Mi a Big Data?

A „Big Data” korunk egyik leggyakrabban használt szavai, de mit is jelent ez valójában?

Íme a big data gyors, egyszerű meghatározása. Big adatok olyan adat, amely túl nagy és összetett ahhoz, hogy hagyományos adatfeldolgozási és tárolási módszerekkel kezelni lehessen. Bár ez egy gyors definíció, amelyet heurisztikaként használhat, hasznos lenne a nagy adatok mélyebb és teljesebb megértése. Vessünk egy pillantást a big data alapjául szolgáló néhány fogalomra, mint például a tárolás, a struktúra és a feldolgozás.

Mennyire nagy a Big Data?

Ez nem olyan egyszerű, mint azt mondani, hogy "az X-nél nagyobb adat big data", az adatok kezelésének környezete rendkívül fontos tényező annak meghatározása, hogy mi minősül nagy adatnak. Az, hogy az adatoknak milyennek kell lenniük ahhoz, hogy nagy adatnak lehessen őket tekinteni, a kontextustól vagy attól a feladattól függ, amelyben az adatokat használják. Két, egymástól jelentősen eltérő méretű adatkészletet tekinthetünk „nagy adatnak” különböző kontextusokban.

Konkrétabban, ha egy 200 megabájtos fájlt próbál meg e-mail mellékletként elküldeni, akkor nem tudná megtenni. Ebben az összefüggésben a 200 megabájtos fájl nagy adatnak tekinthető. Ezzel szemben egy 200 megabájtos fájl másolása egy másik eszközre ugyanazon a LAN-on belül előfordulhat, hogy egyáltalán nem vesz igénybe időt, és ebben az összefüggésben ez nem tekinthető nagy adatnak.

Tételezzük fel azonban, hogy 15 terabájt értékű videót elő kell feldolgozni a számítógépes látás oktatásához. Ebben az esetben a videofájlok akkora helyet foglalnak el, hogy még egy nagy teljesítményű számítógépnek is sok időbe telik az összes feldolgozása, és így a feldolgozás általában több, egymáshoz kapcsolódó számítógép között oszlik meg a feldolgozási idő csökkentése érdekében. Ez a 15 terabájtnyi videoadat mindenképpen nagy adatnak minősül.

A Big Data struktúrák típusai

A Big Data három különböző szerkezeti kategóriába sorolható: strukturálatlan adatok, félig strukturált adatok és strukturált adatok.

A strukturálatlan adatok olyan adatok, amelyek nem rendelkeznek definiálható struktúrával, vagyis az adatok lényegében csak egy nagy készletben vannak. A strukturálatlan adatokra példa lehet egy címkézetlen képekkel teli adatbázis.

A félig strukturált adatok olyan adatok, amelyek nem rendelkeznek formális szerkezettel, de léteznek egy laza struktúrán belül. Például előfordulhat, hogy az e-mail adatok félig strukturált adatoknak számítanak, mert hivatkozhat az egyes e-mailekben található adatokra, de formális adatminták még nem jöttek létre.

A strukturált adatok olyan adatok, amelyek formális szerkezettel rendelkeznek, és az adatpontokat különböző jellemzők szerint kategorizálják. A strukturált adatok egyik példája egy Excel-táblázat, amely elérhetőségi adatokat, például neveket, e-mail-címeket, telefonszámokat és webhelyeket tartalmaz.

Ha szeretne többet megtudni az adattípusok különbségeiről, nézze meg az itt található linket.

Mérőszámok a Big Data értékeléséhez

A Big Data három különböző mérőszám szerint elemezhető: mennyiség, sebesség és változatosság.

A kötet az adatok méretére vonatkozik. Az adatkészletek átlagos mérete gyakran növekszik. Például 2006-ban a legnagyobb merevlemez egy 750 GB-os merevlemez volt. Ezzel szemben úgy gondolják, hogy a Facebook több mint 500 terabájt adatot generál egy nap alatt, és a ma elérhető legnagyobb fogyasztói merevlemez egy 16 terabájtos merevlemez. Ami az egyik korszakban big data-nak számít, nem biztos, hogy egy másik korszakban big data. Napjainkban egyre több adat keletkezik, mert a minket körülvevő objektumok közül egyre több van felszerelve érzékelőkkel, kamerákkal, mikrofonokkal és egyéb adatgyűjtő eszközökkel.

A sebesség azt jelenti, hogy milyen gyorsan haladnak az adatok, vagy másképpen fogalmazva, mennyi adat keletkezik egy adott időtartamon belül. A közösségi média streamjei percenként több százezer bejegyzést és megjegyzést generálnak, miközben a saját e-mail postafiókjában valószínűleg sokkal kevesebb tevékenység lesz. A nagy adatfolyamok olyan adatfolyamok, amelyek gyakran több százezer vagy millió eseményt kezelnek többé-kevésbé valós időben. Ilyen adatfolyamok például az online játékplatformok és a nagyfrekvenciás tőzsdei kereskedési algoritmusok.

A változatosság az adatkészletben található különböző típusú adatokra utal. Az adatok számos különböző formátumból állhatnak, például hang, videó, szöveg, fényképek vagy sorozatszámok. Általában a hagyományos adatbázisokat úgy formázzák, hogy egy vagy csak néhány adattípust kezeljenek. Másképpen fogalmazva, a hagyományos adatbázisok úgy vannak felépítve, hogy meglehetősen homogén és következetes, kiszámítható szerkezetű adatokat tároljanak. Ahogy az alkalmazások sokrétűbbé válnak, tele vannak különböző funkciókkal, és egyre többen használják őket, az adatbázisoknak fejlődniük kellett, hogy több típusú adatot tároljanak. A strukturálatlan adatbázisok ideálisak nagy adatok tárolására, mivel többféle adattípust is tárolhatnak, amelyek nem kapcsolódnak egymáshoz.

A Big Data kezelésének módszerei

Számos különböző platform és eszköz létezik a nagy adatok elemzésének megkönnyítésére. A nagy adatkészleteket elemezni kell, hogy értelmes mintákat vonjunk ki az adatokból, ami a hagyományos adatelemző eszközökkel meglehetősen nagy kihívást jelenthet. A nagy mennyiségű adat elemzéséhez szükséges eszközökre válaszul számos vállalat hozott létre nagy adatelemző eszközöket. A nagy adatelemző eszközök közé olyan rendszerek tartoznak, mint a ZOHO Analytics, a Cloudera és a Microsoft BI.

Kapcsolódó témák:big adatok

Up Next

Úgy tűnik, hogy az AI-stratégia csökkenti a mesterséges intelligencia energiafelhasználását

Ne hagyd ki

A kutatók mesterséges intelligencia eszközt fejlesztenek az álhírek azonosítására

Daniel Nelson

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.