AI 101
Hvad er Machine Learning?

Machine learning er et af de hurtigst voksende teknologiske områder, men på trods af hvor ofte ordene “machine learning” bliver brugt, kan det være svært at forstå, hvad machine learning er, præcis.
Machine learning refererer ikke kun til én ting, det er en paraplybetegnelse, der kan anvendes på mange forskellige begreber og teknikker. At forstå machine learning indebærer at være fortrolig med forskellige former for modelanalyse, variabler og algoritmer. Lad os tage en nærmere kig på machine learning for bedre at forstå, hvad det omfatter.
Hvad Er Machine Learning?
Mens betegnelsen machine learning kan anvendes på mange forskellige ting, refererer den generelt til at enable en computer til at udføre opgaver uden at modtage eksplisitte linje-for-linje-instruktioner til at gøre det. En machine learning-specialist behøver ikke at skrive alle de nødvendige trin for at løse problemet, fordi computeren er i stand til at “lære” ved at analysere mønstre inden for data og generalisere disse mønstre til nye data.
Machine learning-systemer har tre grundlæggende dele:
- Inddata
- Algoritmer
- Uddata
Inddataene er de data, der fødes ind i machine learning-systemet, og inddata kan deles op i mærker og funktioner. Funktioner er de relevante variabler, de variabler, der vil blive analyseret for at lære mønstre og trække konklusioner. Imens er mærkerne klasser/beskrivelser, der gives til de enkelte eksemplarer af data.
Funktioner og mærker kan anvendes i to forskellige typer machine learning-problemer: overvåget læring og uovervåget læring.
Uovervåget vs. Overvåget Læring
I overvåget læring er inddata ledsaget af en sandhed. Overvågede læringproblemer har de korrekte udgangsværdier som en del af datasættet, så de forventede klasser er kendt på forhånd. Dette gør det muligt for datavidenskabsmanden til at kontrollere algoritmens præstation ved at teste data på en testdatasæt og se, hvor stor procentdel af elementer der blev korrekt klassificeret.
I modsætning hertil har uovervågede læring problemer ikke nogen sandheds-mærker knyttet til dem. En machine learning-algoritme, der er trænet til at udføre uovervågede læring-opgaver, må være i stand til at slutte sig til de relevante mønstre i data for sig selv.
Overvågede læring-algoritmer anvendes typisk til klassificeringsproblemer, hvor man har et stort datasæt fyldt med eksemplarer, der skal sorteres ind i en af mange forskellige klasser. En anden type overvåget læring er en regression-opgave, hvor værdien, der udskrives af algoritmen, er kontinuert i naturen i stedet for kategorisk.
Imens anvendes uovervåede læring-algoritmer til opgaver som tætheds-estimation, klustering og repræsentationslæring. Disse tre opgaver kræver, at machine learning-modellen kan slutte sig til datastrukturerne, der er ingen foruddefinerede klasser givet til modellen.
Lad os tage et kort overblik over nogle af de mest almindelige algoritmer, der anvendes i både uovervåget læring og overvåget læring.
Typer Af Overvåget Læring
Almindelige overvågede læring-algoritmer omfatter:
- Naive Bayes
- Support Vector Maskiner
- Logistisk Regression
- Tilfældige Skove
- Kunstige Neurale Netværk
Support Vector Maskiner er algoritmer, der opdeler et datasæt i forskellige klasser. Data punkter er grupperet i kluster ved at tegne linjer, der adskiller klasserne fra hinanden. Punkter fundet på den ene side af linjen vil tilhøre en klasse, mens punkterne på den anden side af linjen er en anden klasse. Support Vector Maskiner sigter mod at maksimere afstanden mellem linjen og punkterne på begge sider af linjen, og jo større afstanden, desto mere sikker er klassificatoren på, at punktet tilhører en klasse og ikke en anden klasse.
Logistisk Regression er en algoritme, der anvendes i binære klassificeringsopgaver, når datapunkter skal klassificeres som tilhørende en af to klasser. Logistisk Regression fungerer ved at mærke datapunktet enten som 1 eller 0. Hvis den opfattede værdi af datapunktet er 0,49 eller derunder, klassificeres det som 0, mens hvis det er 0,5 eller derover, klassificeres det som 1.
Beslutningstræ-algoritmer fungerer ved at opdele datasæt i mindre og mindre fragmenter. De præcise kriterier, der anvendes til at opdele data, er op til machine learning-ingeniøren, men målet er at slutte med at opdele data i enkeltvis datapunkter, der derefter kan klassificeres ved hjælp af en nøgle.
En Tilfældig Skov-algoritme er i virkeligheden mange enkeltstående Beslutningstræ-klassificatorer forbundet sammen til en mere kraftfuld klassificator.
Naive Bayes-klassificatoren beregner sandsynligheden for, at et givent datapunkt er opstået baseret på sandsynligheden for en tidligere begivenhed. Den er baseret på Bayes’ teorem og placerer datapunkterne i klasser baseret på deres beregnede sandsynlighed. Når en Naive Bayes-klassificator implementeres, antages det, at alle forudsigterne har den samme indvirkning på klasseresultatet.
Et Kunstigt Neuralt Netværk, eller multi-lag perceptron, er machine learning-algoritmer inspireret af struktur og funktion af det menneskelige hjerte. Kunstige neurale netværk får deres navn fra det faktum, at de består af mange noder/neuroner forbundet sammen. Hver neuron manipulerer data med en matematisk funktion. I kunstige neurale netværk er der indgangslag, skjulte lag og uddatalag.
Det skjulte lag i neuralt netværk er, hvor data faktisk fortolkes og analyseres for mønstre. Med andre ord, det er, hvor algoritmen lærer. Jo flere neuroner forbundet sammen, desto mere komplekse netværk kan lære mere komplekse mønstre.
Typer Af Uovervåget Læring
Uovervåede læring-algoritmer omfatter:
- K-means klustering
- Autoencodere
- Principal Component Analyse
K-means klustering er en uovervåget klassificeringsteknik, og den fungerer ved at adskille datapunkter i kluster eller grupper baseret på deres funktioner. K-means klustering analyserer funktionerne fundet i datapunkterne og finder mønstre i dem, der gør, at datapunkterne fundet i en given klasse kluster er mere lignende hinanden end de er til kluster, der indeholder andre datapunkter. Dette opnås ved at placere mulige centre for klusteret, eller centroider, i en graf over data og omplacere centroidens position, indtil en position er fundet, der minimiserer afstanden mellem centroiden og punkterne, der tilhører centroidens klasse. Forskeren kan specificere det ønskede antal kluster.
Principal Component Analyse er en teknik, der reducerer store mængder af funktioner/variabler ned til en mindre funktionssfære/færre funktioner. De “primære komponenter” af datapunkterne vælges til bevarelse, mens de andre funktioner presses ned i en mindre repræsentation. Forholdet mellem de oprindelige datapunkter bevares, men da kompleksiteten af datapunkterne er simplere, er data lettere at kvantificere og beskrive.
Autoencodere er versioner af neurale netværk, der kan anvendes til uovervåede læring-opgaver. Autoencodere er i stand til at tage ustemplet, fri-form data og omdanne dem til data, som et neuralt netværk kan anvende, grundlæggende ved at skabe deres eget mærket træningsdata. Målet for en autoencoder er at konvertere inddata og genopbygge den så nøjagtigt som muligt, så det er i netværkets interesse at afgøre, hvilke funktioner der er de vigtigste, og udtrække dem.












