Connect with us

Det bästa

10 bästa maskinlärningsalgoritmer

mm

Även om vi lever i en tid av extraordinär innovation inom GPU-accelererad maskinlärning, presenterar de senaste forskningsartiklarna ofta (och framträdande) algoritmer som är flera decennier gamla, i vissa fall 70 år gamla.

Vissa kan hävda att många av dessa äldre metoder faller inom kategorin “statistisk analys” snarare än maskinlärning, och föredrar att datera början på branschen tillbaka till 1957, med uppfinningen av Perceptron.

Med tanke på den utsträckning i vilken dessa äldre algoritmer stöder och är sammanflätade med de senaste trenderna och rubrikerna inom maskinlärning, är det en tvistbar ståndpunkt. Så låt oss ta en titt på några av de “klassiska” byggstenarna som ligger till grund för de senaste innovationerna, samt några nyare bidrag som gör en tidig ansökan till AI-hall of fame.

1: Transformatorer

2017 ledde Google Research en forskningssamarbete som kulminerade i artikeln Attention Is All You Need. Arbetet presenterade en ny arkitektur som främjade uppmärksamhetsmekanismer från “piping” i encoder/decoder- och återkommande nätverksmodeller till en central transformationsteknologi i sig själva.

Tillvägagångssättet kallades Transformator, och har sedan blivit en revolutionerande metodik inom Natural Language Processing (NLP), som driver, bland många andra exempel, den autoregressiva språkmodellen och AI-posterbarnet GPT-3.

Transformatorer löste elegant problemet med sekvenstransduktion, också kallat “transformation”, som sysslar med bearbetning av indatasekvenser till utdatasekvenser. En transformator tar också emot och hanterar data på ett kontinuerligt sätt, snarare än i sekventiella batchar, vilket tillåter en “varaktighet av minne” som RNN-arkitekturer inte är utformade för att uppnå. För en mer detaljerad översikt av transformatorer, se vår referensartikel.

I kontrast till de återkommande neurala nätverken (RNN) som hade börjat dominera ML-forskning i CUDA-eran, kunde Transformator-arkitektur också enkelt parallelliseras, vilket öppnade vägen för att produktivt hantera en mycket större korpus av data än RNN.

Populär användning

Transformatorer fångade den allmänna fantasin 2020 med utgivningen av OpenAI:s GPT-3, som skröt med en då rekordbrytande 175 miljarder parametrar. Detta tycktes vara en anmärkningsvärd prestation, men det överträffades senare av senare projekt, som 2021 utgivningen av Microsofts Megatron-Turing NLG 530B, som (som namnet antyder) har över 530 miljarder parametrar.

En tidsaxel för hyperskala Transformer NLP-projekt. Källa: Microsoft

En tidsaxel för hyperskala Transformer NLP-projekt. Källa: Microsoft

Transformatorarkitektur har också korsat över från NLP till datorseende, och driver en ny generation av bildsyntesramverk som OpenAI:s CLIP och DALL-E, som använder text>bild-domänmappning för att slutföra ofullständiga bilder och syntetisera nya bilder från tränade domäner, bland en växande mängd relaterade tillämpningar.

DALL-E försöker slutföra en partiell bild av en byst av Plato. Källa: https://openai.com/blog/dall-e/

DALL-E försöker slutföra en partiell bild av en byst av Plato. Källa: https://openai.com/blog/dall-e/

2: Generativa Adversariala Nätverk (GANs)

Även om transformatorer har fått anmärkningsvärd mediauppmärksamhet genom utgivningen och antagandet av GPT-3, har Generativt Adversarialt Nätverk (GAN) blivit ett erkänt varumärke i sig själv, och kan så småningom ansluta sig till deepfake som ett verb.

Först föreslagen 2014 och främst används för bildsyntes, består en Generativ Adversarial Network-arkitektur av en Generator och en Discriminator. Generatoren itererar genom tusentals bilder i en dataset, och försöker återkonstruera dem. För varje försök graderar Diskriminatoren Generatorns arbete och skickar tillbaka Generatoren för att göra bättre, men utan någon insikt i det sätt som den tidigare rekonstruktionen felade.

Källa: https://developers.google.com/machine-learning/gan/gan_structure

Källa: https://developers.google.com/machine-learning/gan/gan_structure

Detta tvingar Generatoren att utforska en mångfald av vägar, snarare än att följa de potentiella blindgator som skulle ha uppstått om Diskriminatoren hade sagt till den var den gick fel (se #8 nedan). När utbildningen är över har Generatoren en detaljerad och omfattande karta över relationer mellan punkter i datasetet.

Ett utdrag från forskarnas medföljande video (se inbäddning i slutet av artikeln). Observera att användaren manipulerar transformationerna med en 'grab'-cursor (överst till vänster). Källa: https://www.youtube.com/watch?v=k7sG4XY5rIc

Från artikeln Improving GAN Equilibrium by Raising Spatial Awareness: en ny ramverk itererar genom den ibland mystiska latentrummet för en GAN, och tillhandahåller responsiv instrumentering för en bildsyntesarkitektur. Källa: https://genforce.github.io/eqgan/

Genom analogi är detta skillnaden mellan att lära sig en enda tråkig pendling till centrala London, eller att noggrant förvärva The Knowledge.

Resultatet är en högnivåsamling av funktioner i det latenta rummet för den tränade modellen. Den semantiska indikatorn för en högnivåfunktion kunde vara “person”, medan en nedstigning genom specificitet relaterad till funktionen kan avslöja andra lärd egenskaper, såsom “man” och “kvinna”. På lägre nivåer kan underfunktionerna brytas ned till “blond”, “kaukasisk”, etc.

Sammanflätning är ett betydande problem i det latenta rummet för GANs och encoder/decoder-ramverk: är leendet på en GAN-genererad kvinnlig ansikte en sammanflätad funktion av hennes “identitet” i det latenta rummet, eller är det en parallell gren?

GAN-genererade ansikten från thispersondoesnotexist. Källa: https://this-person-does-not-exist.com/en

GAN-genererade ansikten från thispersondoesnotexist. Källa: https://this-person-does-not-exist.com/en

De senaste åren har sett en ökning av antalet nya forskningsinitiativ i detta avseende, vilket kanske banar väg för funktionnivå, Photoshop-liknande redigering av det latenta rummet för en GAN, men för tillfället är många transformationer effektivt “allt eller inget”-paket. Noterbart är att NVIDIA:s EditGAN-utgivning i slutet av 2021 uppnår en hög nivå av tolkbarhet i det latenta rummet genom att använda semantiska segmenteringsmasker.

Populär användning

Förutom deras (i själva verket ganska begränsade) inblandning i populära deepfake-videor, har bild/video-centrerade GANs spridit sig under de senaste fyra åren, och har fascinerat forskare och allmänheten. Att hålla jämna steg med den hisnande takten och frekvensen av nya utgivningar är en utmaning, men GitHub-repositoriet Awesome GAN Applications syftar till att tillhandahålla en omfattande lista.

Generativa Adversariala Nätverk kan i teorin härleda funktioner från vilken väldefinierad domän som helst, inklusive text.

… (resten av texten)

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.