AI 101
Hvad er Machine Learning?

Machine learning er et af de hurtigst voksende teknologiske områder, men på trods af hvor ofte ordene “machine learning” bruges, kan det være svært at forstå, hvad machine learning er, præcis.
Machine learning henviser ikke til bare én ting, det er en paraplybetegnelse, der kan anvendes på mange forskellige begreber og teknikker. At forstå machine learning indebærer at være fortrolig med forskellige former for modelanalyse, variabler og algoritmer. Lad os tage en nærmere kig på machine learning for bedre at forstå, hvad det omfatter.
Hvad er Machine Learning?
Mens betegnelsen machine learning kan anvendes på mange forskellige ting, henviser den generelt til at enable en computer til at udføre opgaver uden at modtage eksplicitte, linje-for-linje-instruktioner til at gøre det. En machine learning-specialist behøver ikke at skrive alle de nødvendige skridt for at løse problemet, fordi computeren er i stand til at “lære” ved at analysere mønstre inden for data og generalisere disse mønstre til nye data.
Machine learning-systemer har tre grundlæggende dele:
- Indgange
- Algoritmer
- Udgange
Indgangene er de data, der indføres i machine learning-systemet, og indgangsdata kan deles op i mærker og funktioner. Funktioner er de relevante variabler, variablerne, der vil blive analyseret for at lære mønstre og trække konklusioner. Imens er mærkerne klasser/beskrivelser, der gives til de enkelte eksempler på data.
Funktioner og mærker kan anvendes i to forskellige typer machine learning-problemer: overvåget læring og uovervåget læring.
Uovervåget vs. Overvåget Læring
I overvåget læring er indgangsdata ledsaget af en grundsandhed. Overvåede læringproblemer har de korrekte udgangsværdier som en del af datasettet, så de forventede klasser er kendt på forhånd. Dette gør det muligt for datavidenskabsmanden at kontrollere algoritmens præstation ved at teste data på en testdataset og se, hvor stor procentdel af elementer, der blev korrekt klassificeret.
I modsætning hertil har uovervået læring problemer ikke grundsandheds-mærker knyttet til dem. En machine learning-algoritme, der er trænet til at udføre uovervåede læringopgaver, må være i stand til at slutte de relevante mønstre i data selv.
Overvåede læring-algoritmer anvendes typisk til klassificeringsproblemer, hvor man har et stort dataset fyldt med eksempler, der skal sorteres ind i en af mange forskellige klasser. En anden type overvåget læring er en regression-opgave, hvor værdien, der udledes af algoritmen, er kontinuert i naturen i stedet for kategorisk.
Imens anvendes uovervåede læring-algoritmer til opgaver som tætheds-estimation, klasterdannelse og repræsentationslæring. Disse tre opgaver kræver, at machine learning-modellen kan slutte datats struktur, der er ingen foruddefinerede klasser givet til modellen.
Lad os tage et kort overblik over nogle af de mest almindelige algoritmer, der anvendes i både uovervået og overvået læring.
Typer af Overvåget Læring
Almindelige overvåede læring-algoritmer omfatter:
- Naiv Bayes
- Support Vector Maskiner
- Logistisk Regression
- Tilfældige Skove
- Kunstige Neurale Netværk
Support Vector Maskiner er algoritmer, der opdeler et dataset i forskellige klasser. Data punkter grupperes i klaster ved at tegne linjer, der adskiller klasserne fra hinanden. Punkter, der findes på den ene side af linjen, hører til en klasse, mens punkterne på den anden side af linjen er en anden klasse. Support Vector Maskiner sigter mod at maksimere afstanden mellem linjen og punkterne på begge sider af linjen, og jo større afstanden, desto mere sikker er klassificatoren på, at punktet tilhører en bestemt klasse og ikke en anden klasse.
Logistisk Regression er en algoritme, der anvendes i binære klassificeringsopgaver, når datapunkter skal klassificeres som tilhørende en af to klasser. Logistisk Regression fungerer ved at mærke datapunktet enten som 1 eller 0. Hvis den opfattede værdi af datapunktet er 0,49 eller lavere, klassificeres det som 0, mens hvis det er 0,5 eller højere, klassificeres det som 1.
Beslutningstræ-algoritmer fungerer ved at opdele datasets i mindre og mindre fragmenter. De præcise kriterier, der anvendes til at opdele data, er op til machine learning-ingeniøren, men målet er at til sidst opdele data i enkeltvis datapunkter, der derefter kan klassificeres ved hjælp af en nøgle.
En Tilfældig Skov-algoritme er i virkeligheden mange enkeltstående Beslutningstræ-klassificatorer, der er koblet sammen til en mere kraftfuld klassificator.
Naiv Bayes-klassificatoren beregner sandsynligheden for, at et givet datapunkt er opstået, baseret på sandsynligheden for, at en tidligere begivenhed er opstået. Den er baseret på Bayes’ teorem og placerer datapunkterne i klasser baseret på deres beregnede sandsynlighed. Når en Naiv Bayes-klassificator implementeres, antages det, at alle forudsigelserne har den samme indvirkning på klasseresultatet.
Et Kunstigt Neuralt Netværk, eller multi-lag perceptron, er machine learning-algoritmer, der er inspireret af struktur og funktion i det menneskelige hjerte. Kunstige neurale netværk får deres navn fra, at de består af mange knuder/neuroner, der er koblet sammen. Hver neuron manipulerer data med en matematisk funktion. I kunstige neurale netværk er der indgangslag, skjulte lag og udgangslag.
Det skjulte lag i neuralt netværk er, hvor data faktisk fortolkes og analyseres for mønstre. Med andre ord, det er, hvor algoritmen lærer. Jo flere neuroner, der er koblet sammen, jo mere komplekse netværk, der er i stand til at lære mere komplekse mønstre.
Typer af Uovervået Læring
Uovervåede læring-algoritmer omfatter:
- K-means klasterdannelse
- Autoencoders
- Principal Component Analyse
K-means klasterdannelse er en uovervået klassificeringsteknik, og den fungerer ved at adskille datapunkter i klaster eller grupper baseret på deres funktioner. K-means klasterdannelse analyserer funktionerne i datapunkterne og finder mønstre i dem, der gør, at datapunkterne i en given klasseklaster er mere lignende hinanden end de er til datapunkter i andre klaster. Dette opnås ved at placere mulige centre for klasteret, eller centroider, i et diagram over data og omplacere centroidens position, indtil en position er fundet, der minimiserer afstanden mellem centroiden og datapunkterne, der tilhører centroidens klasse. Forskeren kan specificere det ønskede antal klaster.
Principal Component Analyse er en teknik, der reducerer et stort antal funktioner/variabler til en mindre funktionrum/færre funktioner. De “primære komponenter” af datapunkterne vælges til bevarelse, mens de andre funktioner presses sammen til en mindre repræsentation. Forholdet mellem de oprindelige datapunkter bevares, men da kompleksiteten af datapunkterne er simplere, er data lettere at kvantificere og beskrive.
Autoencoders er versioner af neurale netværk, der kan anvendes til uovervåede læring-opgaver. Autoencoders er i stand til at tage ikke-mærkede, frie data og omdanne dem til data, som et neuralt netværk kan bruge, grundlæggende ved at skabe deres egen mærkede træningsdata. Målet for en autoencoder er at omdanne indgangsdata og genopbygge det så nøjagtigt som muligt, så det er i nettets interesse at bestemme, hvilke funktioner der er de vigtigste, og udtrække dem.












