AI 101

Strukturerad vs ostrukturerad data

Uppdaterad on Augusti 23, 2020

Ostrukturerad data är data som inte är organiserade på ett fördefinierat sätt eller som saknar en specifik datamodell. Under tiden, strukturerade data är data som har tydliga, definierbara relationer mellan datapunkterna, med en fördefinierad modell som innehåller den. Det är det korta svaret på skillnaden mellan strukturerad och ostrukturerad data, men låt oss ta en närmare titt på skillnaderna mellan de två typerna av data.

Vad är strukturerad data?

När det kommer till datavetenskap hänvisar datastrukturer till specifika sätt att lagra och organisera data. Olika datastrukturer har olika relationer mellan datapunkter, men data kan också vara ostrukturerade. Vad innebär det att säga att data är strukturerad? För att göra denna definition tydligare, låt oss ta en titt på några av de olika sätten att strukturera data.

Strukturerad data lagras ofta i tabeller som Excel-filer eller SQL-databaser. I dessa fall innehåller raderna och kolumnerna i data olika variabler eller funktioner, och det är ofta möjligt att urskilja förhållandet mellan datapunkter genom att kontrollera var datarader och kolumner skär varandra. Strukturerad data kan enkelt passas in i en relationsdatabas, och exempel på olika funktioner i en strukturerad datauppsättning kan inkludera objekt som namn, adresser, datum, väderstatistik, kreditkortsnummer, etc. Även om strukturerad data oftast är textdata, är det möjligt att lagra saker som bilder och ljud som strukturerad data också.

Vanliga källor till strukturerad data inkluderar saker som data som samlats in från sensorer, webbloggar, nätverksdata och detaljhandels- eller e-handelsdata. Strukturerad data kan också genereras genom att personer fyller i kalkylblad eller databaser med data som samlats in från datorer och andra enheter. Till exempel matas data som samlas in via onlineformulär ofta omedelbart in i en datastruktur.

Strukturerad data har en lång historia av att lagras i relationella databaser och SQL. Dessa lagringsmetoder är populära på grund av att det är lätt att läsa och skriva i dessa format, med de flesta plattformar och språk som kan tolka dessa dataformat.

I ett maskininlärningssammanhang är strukturerad data lättare att träna ett maskininlärningssystem på, eftersom mönstren i datan är mer explicita. Vissa funktioner kan matas in i en maskininlärningsklassificerare och användas för att märka andra datainstanser baserat på de valda funktionerna. Däremot tenderar att träna ett maskininlärningssystem på ostrukturerad data att vara svårare, av skäl som kommer att bli tydliga.

Vad är ostrukturerad data?

Ostrukturerad data är data som inte är organiserad enligt en fördefinierad datamodell eller struktur. Ostrukturerad data kallas ofta kvalitativ data eftersom den inte kan analyseras eller bearbetas på traditionella sätt med de vanliga metoder som används för strukturerad data.

Eftersom ostrukturerad data inte har några definierade relationer mellan datapunkter, kan de inte organiseras i relationsdatabaser. Däremot är hur ostrukturerad data lagras vanligtvis med en NoSQL-databas, eller en icke-relationell databas. Om strukturen i databasen är av ringa betydelse kan en datasjö, eller en stor pool av ostrukturerad data, användas för att lagra data istället för en NoSQL-databas.

Ostrukturerad data är svår att analysera, och att förstå ostrukturerad data innebär ofta att man undersöker enskilda databitar för att urskilja potentiella egenskaper och sedan undersöka om dessa funktioner förekommer i andra databitar inom poolen.

Den stora majoriteten av data är i ostrukturerade format, med uppskattningar att ostrukturerad data utgör cirka 80 % av all data. Datautvinningstekniker kan användas för att strukturera data.

När det gäller maskininlärning kan vissa tekniker hjälpa till att beställa ostrukturerad data och omvandla den till strukturerad data. Ett populärt verktyg för att omvandla ostrukturerad data till strukturerad data är ett system som kallas en autoencoder.

Relaterade ämnen:101

Strax

Övervakad vs oövervakad inlärning

Missa inte

Vad är Transfer Learning?

Daniel Nelson

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.

Unite.AI

Strukturerad vs ostrukturerad data

AI 101

Strukturerad vs ostrukturerad data

Innehållsförteckning

Vad är strukturerad data?

Vad är ostrukturerad data?

Unite.AI

Strukturerad vs ostrukturerad data

Innehållsförteckning

Vad är strukturerad data?

Vad är ostrukturerad data?

Du må gilla