Kunstig intelligens

Styrkelse af store visionsmodeller (LVM'er) i domænespecifikke opgaver gennem Transfer Learning

Opdateret on Februar 21, 2024

Frigør potentialet ved Large Vision Models (LVM'er) på forskellige domæner gennem effektiv overførselslæring

Computer vision er et felt af kunstig intelligens der sigter mod at sætte maskiner i stand til at forstå og fortolke visuel information, såsom billeder eller videoer. Computer vision har mange applikationer inden for forskellige domæner, såsom medicinsk billedbehandling, sikkerhed, autonom kørsel og underholdning. Det er imidlertid en udfordring at udvikle computervisionssystemer, der fungerer godt på forskellige opgaver og domæner, og det kræver en masse mærkede data og beregningsressourcer.

En måde at løse denne udfordring på er at bruge overføre læring, en teknik, der genbruger den viden, man har lært fra én opgave eller domæne, til en anden. Overførselslæring kan reducere behovet for data og beregninger og forbedre generaliseringen og ydeevnen af computervisionsmodeller. Denne artikel fokuserer på en specifik type computervisionsmodel, kaldet Large Vision Models (LVM'er), og hvordan de kan udnyttes til domænespecifikke opgaver gennem overførselslæring.

Hvad er Large Vision Models (LVM'er)?

LVM'er er avancerede AI-modeller, der behandler og fortolker visuelle data, typisk billeder eller videoer. De kaldes "stor” fordi de har mange parametre, ofte i størrelsesordenen millioner eller endda milliarder, der giver dem mulighed for at lære komplekse mønstre og funktioner i visuelle data. LVM'er er normalt bygget ved hjælp af avanceret neurale netværksarkitekturer, Såsom Convolutional Neural Networks (CNN'er) eller transformere, der effektivt kan håndtere pixeldata og detektere hierarkiske mønstre.

LVM'er er trænet i en stor mængde visuelle data, såsom internetbilleder eller videoer, sammen med relevante etiketter eller annoteringer. Modellen lærer ved at justere dens parametre for at minimere forskellen mellem dens forudsigelser og de faktiske etiketter. Denne proces kræver betydelig regnekraft og et stort, forskelligartet datasæt for at sikre, at modellen kan generalisere godt til nye, usete data.

Adskillige fremtrædende eksempler på LVM'er omfatter OpenAI's CLIP, som udmærker sig i opgaver som nul-skud klassificering og billedsøgning ved at forstå billeder gennem naturlige sprogbeskrivelser. Ligeledes, Googles vision transformer vedtager en transformerlignende arkitektur til billedklassificering, hvilket opnår avancerede resultater i forskellige benchmarks. LandingLens, udviklet af LandingAI, skiller sig ud for sin brugervenlige platform, som muliggør brugerdefinerede computervisionsprojekter uden kodningsekspertise. Den anvender domænespecifikke LVM'er, der demonstrerer robust ydeevne i opgaver som defektdetektering og objektlokalisering, selv med begrænsede mærkede data.

Hvorfor overføre læring til LVM'er?

LVM'er har vist bemærkelsesværdige evner til at forstå og generere visuelle data, men har også begrænsninger. En af de vigtigste begrænsninger er, at de ofte trænes på datasæt til generelle formål, som f.eks IMAGEnet or COCO, der kan afvige fra den specifikke opgave eller det specifikke domæne, som brugeren er interesseret i. For eksempel kan en LVM, der er trænet i internetbilleder, muligvis ikke genkende sjældne eller nye objekter, såsom medicinske instrumenter eller industrielle dele, der er relevante for en specifik domæne.

Desuden er LVM'er muligvis ikke i stand til at tilpasse sig variationerne eller nuancerne af forskellige domæner, såsom andre lysforhold, kameravinkler eller baggrunde, der kan påvirke kvaliteten og nøjagtigheden af modellens forudsigelser.

For at overvinde disse begrænsninger kan overførselslæring udnytte den viden, som en LVM har lært på et datasæt til generelle formål til en specifik opgave eller domæne. Overførselslæring er at finjustere eller tilpasse en LVM til brugerens behov ved at bruge en mindre mængde mærkede data fra målopgaven eller domænet.

Brug af overførselslæring giver adskillige fordele for LVM'er. En vigtig fordel er evnen til at overføre viden fra forskellige visuelle data til specifikke domæner, hvilket muliggør hurtigere konvergens på målrettede opgaver. Desuden mindsker det problemer med dataafhængighed ved at bruge forudtrænede modellers indlærte funktioner, hvilket reducerer behovet for omfattende domænespecifikke mærkede data.

Desuden fører initialisering af LVM'er med fortrænede vægte til accelereret konvergens under finjustering, hvilket er særligt fordelagtigt, når beregningsressourcer er begrænsede. I sidste ende forbedrer overførselslæring generalisering og ydeevne, skræddersy LVM'er til specifikke opgaver og sikrer nøjagtige forudsigelser, fremmer brugertilfredshed og tillid.

Hvordan overfører man Learn til LVM'er?

Der findes forskellige tilgange og metoder til at udføre overførselslæring for LVM'er, afhængigt af ligheden og tilgængeligheden af data mellem kilde- og målopgaverne eller domænerne. Der er to hovedtilgange til transferlæring, nemlig induktiv og transduktiv transferlæring.

Induktiv overførselslæring antager, at kilde- og målopgaverne er forskellige, men kilde- og måldomænerne ligner hinanden. Kildeopgaven kunne for eksempel være billedklassificering, og målopgaven kunne være objektdetektion, men begge opgaver bruger billeder fra det samme domæne, såsom naturlige scener eller dyr. I dette tilfælde er målet at overføre den viden, som LVM har lært om kildeopgaven, til målopgaven ved at bruge nogle mærkede data fra målopgaven til at finjustere modellen. Denne tilgang er også kendt som opgaveoverførselslæring eller multi-task learning.

På den anden side, transduktiv overførselslæring antager, at kilde- og målopgaverne er ens, men kilde- og måldomænerne er forskellige. Kilde- og målopgaverne kunne for eksempel være billedklassificering, kildedomænet kunne være internetbilleder, og måldomænet kunne være medicinske billeder. I dette tilfælde er målet at overføre den viden, som LVM'en har lært på kildedomænet, til måldomænet ved at bruge nogle mærkede eller umærkede data fra måldomænet til at tilpasse modellen. Denne tilgang er også kendt som domæneoverførselslæring eller domænetilpasning.

Metoder til overførsel af læring

Overførselslæring for LVM'er involverer forskellige metoder, der er skræddersyet til forskellige modifikationsniveauer og adgang til modelparametre og arkitektur. Funktionsekstraktion er en tilgang, der udnytter de funktioner, der er kendt af LVM på en kildeopgave som input til en ny model i måldomænet. Selvom det ikke kræver ændringer af LVM's parametre eller arkitektur, kan det være svært at fange opgavespecifikke funktioner for måldomænet. På den anden side involverer finjustering at justere LVM-parametre ved hjælp af mærkede data fra måldomænet. Denne metode forbedrer tilpasningen til målopgaven eller domænet, hvilket kræver parameteradgang og ændring.

Endelig meta-læring fokuserer på at træne en generel model, der er i stand til hurtig tilpasning til nye opgaver eller domæner med minimale datapunkter. Brug af algoritmer som f MAML or Krybdyr, giver meta-læring LVM'er mulighed for at lære af forskellige opgaver, hvilket muliggør effektiv overførselslæring på tværs af dynamiske domæner. Denne metode nødvendiggør adgang til og ændring af LVM-parametre for effektiv implementering.

Domænespecifikke Transfer Learning-eksempler med LVM'er

Overførselslæring for LVM'er har vist betydelig succes på tværs af forskellige domæner. Industriel inspektion er et domæne, der kræver høj effektivitet og kvalitet i computervisionsmodeller, da det involverer opdagelse og lokalisering af defekter eller anomalier i forskellige produkter og komponenter. Industriel inspektion står imidlertid over for udfordringer såsom forskellige og komplekse scenarier, varierende miljøforhold og høje standarder og regler.

Overførselslæring kan hjælpe med at overvinde disse udfordringer ved at udnytte forudtrænede LVM'er på datasæt til generelle formål og finjustere dem på domænespecifikke data. For eksempel giver LandingAI's LandingLens-platform brugere mulighed for at skabe brugerdefinerede computervisionsprojekter til industriel inspektion uden kodningserfaring. Den bruger domænespecifikke LVM'er til at opnå høj ydeevne på downstream computervisionsopgaver, såsom defektdetektering eller objektplacering, med mindre mærkede data.

Ligeledes bidrager overførselslæring i underholdningsindustrien til kreativitet og mangfoldighed i computervisionsmodeller. OpenAIs CLIP-model, designet til opgaver som billedgenerering ud fra tekstbeskrivelser, giver brugerne mulighed for at skabe forskelligartet visuelt indhold, såsom at generere billeder af "en drage"Eller"et maleri af Picasso." Denne applikation viser, hvordan overførselslæring giver mulighed for at generere og manipulere visuelt indhold til kunstneriske og underholdningsformål, og løser udfordringer relateret til brugernes forventninger, etiske overvejelser og indholdskvalitet.

The Bottom Line

Afslutningsvis opstår transfer learning som en transformativ strategi til optimering af LVM'er. Ved at tilpasse fortrænede modeller til specifikke domæner adresserer overførselslæring udfordringer, reducerer dataafhængighed og fremskynder konvergens. Fremgangsmåden forbedrer LVM'ers effektivitet i domænespecifikke opgaver. Det betyder et afgørende skridt hen imod at bygge bro mellem almen træning og specialiserede applikationer, hvilket markerer et betydeligt fremskridt på området.

Næste

OLMo: Forbedring af videnskaben om sprogmodeller

Gå ikke glip af

Udforskning af Gemini 1.5: Hvordan Googles seneste multimodale AI-model løfter AI-landskabet ud over dets forgænger

Dr. Assad Abbas

Dr. Assad Abbas, en Ansat lektor ved COMSATS University Islamabad, Pakistan, opnåede sin ph.d. fra North Dakota State University, USA. Hans forskning fokuserer på avancerede teknologier, herunder cloud, tåge og edge computing, big data analytics og AI. Dr. Abbas har ydet væsentlige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter og konferencer.