- Terminologija (A do D)
- Kontrola sposobnosti AI
- AI Ops
- albumacije
- Performanse imovine
- Autokoder
- Širenje unatrag
- Bayesov teorem
- Big Podaci
- Chatbot: Vodič za početnike
- Računalno razmišljanje
- računalni vid
- Matrica zabune
- Konvolucionarne neuronske mreže
- Cybersecurity
- Data Fabric
- Pripovijedanje podataka
- Znanost podatke
- Skladištenje podataka
- Stablo odlučivanja
- Deepfakes
- Duboko učenje
- Učenje dubokog pojačanja
- DevOps
- DevSecOps
- Difuzijski modeli
- Digitalni blizanci
- Smanjenje dimenzija
- Terminologija (E do K)
- Edge AI
- Emocija AI
- Učenje ansambla
- Etičko hakiranje
- ETL
- Objašnjiva AI
- Federalno učenje
- FinOps
- Generativna AI
- Generativna savjetodavna mreža
- Generativno protiv diskriminacije
- Pojačavanje gradijenta
- Gradijentni silazak
- Malokratno učenje
- Klasifikacija slika
- IT operacije (ITOPs)
- Automatizacija incidenata
- Inženjering utjecaja
- Klasteriranje K-sredstava
- K-najbliži susjedi
- Terminologija (L do Q)
- Terminologija (R do Z)
- Učenje ojačanja
- Odgovorna umjetna inteligencija
- RLHF
- Robotska automatizacija procesa
- Strukturirani protiv nestrukturiranih
- Analiza osjećaja
- Nadzirani vs nenadzirani
- Podrška vektorskih strojeva
- Sintetički podaci
- Sintetički mediji
- Klasifikacija teksta
- TinyML
- Prijenos učenja
- Transformatorske neuronske mreže
- Turingov test
- Pretraživanje sličnosti vektora
AI 101
Strukturirani vs nestrukturirani podaci
Sadržaj
Nestrukturirani podaci su podaci koji nisu organizirani na unaprijed definiran način ili im nedostaje određeni model podataka. U međuvremenu, strukturirani podaci su podaci koji imaju jasne, odredive odnose između podatkovnih točaka, s unaprijed definiranim modelom koji ih sadrži. To je kratki odgovor o razlici između strukturiranih i nestrukturiranih podataka, ali pogledajmo pobliže razlike između te dvije vrste podataka.
Što su strukturirani podaci?
Kad je riječ o informatici, strukture podataka odnose se na specifične načine pohranjivanja i organiziranja podataka. Različite strukture podataka imaju različite odnose između podatkovnih točaka, ali podaci također mogu biti nestrukturirani. Što znači reći da su podaci strukturirani? Kako bismo ovu definiciju učinili jasnijom, pogledajmo neke od različitih načina strukturiranja podataka.
Strukturirani podaci često se drže u tablicama kao što su Excel datoteke ili SQL baze podataka. U tim slučajevima, retci i stupci podataka sadrže različite varijable ili značajke, a često je moguće razlučiti odnos između podatkovnih točaka provjerom gdje se sijeku redovi i stupci podataka. Strukturirani podaci mogu se lako uklopiti u relacijsku bazu podataka, a primjeri različitih značajki u strukturiranom skupu podataka mogu uključivati stavke poput imena, adresa, datuma, vremenske statistike, brojeva kreditnih kartica itd. Iako su strukturirani podaci najčešće tekstualni podaci, moguće pohraniti stvari poput slika i zvuka i kao strukturirane podatke.
Uobičajeni izvori strukturiranih podataka uključuju stvari kao što su podaci prikupljeni sa senzora, web-dnevnici, mrežni podaci i podaci o maloprodaji ili e-trgovini. Strukturirane podatke također mogu generirati ljudi koji ispunjavaju proračunske tablice ili baze podataka podacima prikupljenim s računala i drugih uređaja. Na primjer, podaci prikupljeni putem online obrazaca često se odmah unose u strukturu podataka.
Strukturirani podaci imaju dugu povijest pohranjivanja relacijske baze podataka i SQL. Ove su metode pohrane popularne zbog lakoće čitanja i pisanja u ovim formatima, pri čemu većina platformi i jezika može interpretirati te formate podataka.
U kontekstu strojnog učenja, strukturirane podatke lakše je trenirati sustav strojnog učenja jer su obrasci unutar podataka eksplicitniji. Određene značajke mogu se unijeti u klasifikator strojnog učenja i koristiti za označavanje drugih instanci podataka na temelju tih odabranih značajki. Nasuprot tome, obuka sustava strojnog učenja na nestrukturiranim podacima obično je teža, iz razloga koji će postati jasniji.
Što su nestrukturirani podaci?
Nestrukturirani podaci su podaci koji nisu organizirani prema unaprijed definiranom podatkovnom modelu ili strukturi. Nestrukturirani podaci često se nazivaju kvalitativnim podacima jer se ne mogu analizirati ili obraditi na tradicionalne načine korištenjem uobičajenih metoda koje se koriste za strukturirane podatke.
Budući da nestrukturirani podaci nemaju definirane odnose između podatkovnih točaka, ne mogu se organizirati u relacijske baze podataka. Nasuprot tome, način na koji se pohranjuju nestrukturirani podaci obično je sa NoSQL bazu podataka, ili nerelacijska baza podataka. Ako je struktura baze podataka od malog značaja, može se koristiti podatkovno jezero ili veliki skup nestrukturiranih podataka za pohranu podataka umjesto NoSQL baze podataka.
Nestrukturirane podatke je teško analizirati, a davanje smisla nestrukturiranim podacima često uključuje ispitivanje pojedinačnih dijelova podataka kako bi se uočile potencijalne značajke, a zatim se traži da se vide pojavljuju li se te značajke u drugim dijelovima podataka unutar skupa.
Velika većina podataka je u nestrukturiranim formatima, a procjenjuje se da nestrukturirani podaci čine oko 80% svih podataka. Tehnike rudarenja podataka mogu se koristiti kao pomoć pri strukturiranju podataka.
U smislu strojnog učenja, određene tehnike mogu pomoći u poređanju nestrukturiranih podataka i njihovom pretvaranju u strukturirane podatke. Popularan alat za pretvaranje nestrukturiranih podataka u strukturirane podatke je sustav koji se naziva autokoder.
Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.