Det beste
10 Beste Maskinlæringsalgoritmer

Selv om vi lever i en tid med ekstraordinær innovasjon i GPU-akselerert maskinlærning, presenterer de nyeste forskningsrapportene ofte (og fremtredende) algoritmer som er tiår gamle, i visse tilfeller 70 år gamle.
Noen kan hevde at mange av disse eldre metodene hører hjemme i kategorien ‘statistisk analyse’ snarere enn maskinlærning, og foretrekker å datere oppfinnelsen av sektoren tilbake til 1957, med oppfinnelsen av Perceptron.
Gitt omfanget av hvordan disse eldre algoritmene støtter og er innviklet i de nyeste trendene og overskriftene i maskinlærning, er det en tvilsom holdning. La oss se på noen av de ‘klassiske’ byggesteinene som ligger til grunn for de nyeste innovasjonene, samt noen nyere innganger som gjør en tidlig søknad om AI-hall of fame.
1: Transformerer
I 2017 ledet Google Research en forskningsamarbeid som kulminerte i papiret Oppmerksomhet er alt du trenger. Arbeidet presenterte en ny arkitektur som fremmet oppmerksomhetsmekanismer fra ‘piping’ i encoder/decoder og rekurrerende nettverksmodeller til en sentral transformasjons-teknologi i seg selv.
Tilnærmingen ble kalt Transformer, og har siden blitt en revolusjonerende metode i naturlig språkbehandling (NLP), og driver, blant mange andre eksempler, den autoregressive språkmodellen og AI-poster-barnet GPT-3.

Transformerer løste elegant problemet med sekvens-transduksjon, også kalt ‘transformasjon’, som handler med behandling av inndata-sekvenser til utdata-sekvenser. En transformer mottar og behandler også data på en kontinuerlig måte, snarere enn i sekvensielle batcher, og tillater en ‘varighet av minne’ som RNN-arkitekturer ikke er designet til å oppnå. For en mer detaljert oversikt over transformerer, se vår referanseartikkel.
I motsetning til de rekurrerende nevrale nettverkene (RNN) som hadde begynt å dominere ML-forskning i CUDA-æraen, kunne Transformer-arkitekturen også lett parallelliseres, og åpnet veien for å produktivt håndtere en langt større korpus av data enn RNN.
Vanlig Bruk
Transformerer fanget den offentlige fantasien i 2020 med utgivelsen av OpenAI’s GPT-3, som hadde en da rekordhøy 175 milliarder parametre. Dette synes å være en overveldende prestasjon, men ble senere overskygget av senere prosjekter, som utgivelsen i 2021 av Microsofts Megatron-Turing NLG 530B, som (som navnet antyder) har over 530 milliarder parametre.

En tidsline for hyperskala Transformer NLP-prosjekter. Kilde: Microsoft
Transformer-arkitekturen har også krysset over fra NLP til datavisualisering, og driver en ny generasjon av bilde-syntese-rammeverk som OpenAI’s CLIP og DALL-E, som bruker tekst>bildefelt-mapping til å fullføre ufullstendige bilder og syntetisere nye bilder fra trenede domener, blant en voksende mengde relaterte anvendelser.

DALL-E forsøker å fullføre et delvis bilde av en buste av Plato. Kilde: https://openai.com/blog/dall-e/
2: Generative Adversarial Networks (GAN)
Selv om transformerer har fått ekstraordinær medie-dekning gjennom utgivelsen og tilpasningen av GPT-3, har Generative Adversarial Network (GAN) blitt et kjent merke i seg selv, og kan til slutt bli en del av deepfake som et verb.
Først foreslått i 2014 og hovedsakelig brukt for bilde-syntese, består en Generative Adversarial Network arkitektur av en Generator og en Discriminator. Generatoren sykler gjennom tusenvis av bilder i en datasett, og forsøker iterativt å rekonstruere dem. For hver forsøk, graderer Discriminatoren Generatorens arbeid, og sender Generatoren tilbake for å gjøre bedre, men uten noen innsikt i hvordan den tidligere rekonstruksjonen feilet.

Kilde: https://developers.google.com/machine-learning/gan/gan_structure
Dette tvinger Generatoren til å utforske en mangfoldighet av veier, snarere enn å følge de potensielle blindveier som ville ha resultert hvis Discriminatoren hadde fortalt det hvor det gikk galt (se #8 nedenfor). Når treningen er over, har Generatoren en detaljert og omfattende kart over relasjoner mellom punkter i datasettene.

Et utdrag fra forskernes’ tilhørende video (se innlegg i slutten av artikkelen). Kilde: https://genforce.github.io/eqgan/
Ved analogi er dette forskjellen mellom å lære en enkelt kjedelig pendling til sentrum av London, eller å anskaffe The Knowledge.
Resultatet er en høy-nivå samling av funksjoner i den latente rommet til den trenede modellen. Den semantiske indikator for en høy-nivå funksjon kan være ‘person’, mens en nedstigning gjennom spesifikasjon relatert til funksjonen kan avdekke andre lært egenskaper, som ‘mann’ og ‘kvinne’. På lavere nivåer kan under-egenskapene bryte ned til, ‘blond’, ‘kaukasisk’, osv.
Innblandning er et bemerkelsesverdig problem i den latente rommet til GAN og encoder/decoder-rammeverk: Er smilene på et GAN-generert kvinnelig ansikt en innblandet egenskap av dens ‘identitet’ i den latente rommet, eller er det en parallell gren?

GAN-genererte ansikter fra thispersondoesnotexist. Kilde: https://this-person-does-not-exist.com/en
De siste årene har ført til en voksende mengde nye forskningsinitiativer i denne sammenhengen, kanskje åpner veien for funksjonsnivå, Photoshop-stil-redigering for den latente rommet til en GAN, men for øyeblikket er mange transformasjoner effektivt ‘alt eller ingenting’-pakker. Merkverdig, NVIDIAs EditGAN-utgivelse i slutten av 2021 oppnår en høy nivå av tolkbarhet i den latente rommet ved å bruke semantisk segmentering.
Vanlig Bruk
Bortsett fra deres ( faktisk ganske begrensede) involvering i populære deepfake-videoer, har bilde/video-sentriske GAN blitt spredt over de siste fire årene, og har fascinert forskere og allmennheten. Å holde pace med den svimlende raten og hyppigheten av nye utgivelser er en utfordring, selv om GitHub-repositoriet Awesome GAN Applications har som mål å gi en omfattende liste.
Generative Adversarial Networks kan i teorien avlede funksjoner fra enhver veldefinert domene, inkludert tekst.
… (resten av innholdet oversatt på samme måte)












