Interviews
Vahid Behzadan, direktør for Secured and Assured Intelligent Learning (SAIL) Lab – Interviewserie

Vahid er assisterende professor i datalogi og datavidenskab ved University of New Haven. Han er også direktør for Secure and Assured Intelligent Learning (SAIL) Lab
Hans forskningsinteresser omfatter sikkerhed og sikkerhed for intelligente systemer, psykologisk modellering af AI-sikkerhedsproblemer, sikkerhed for komplekse adaptive systemer, spilteori, multi-agent-systemer og cybersikkerhed.
Du har en omfattende baggrund inden for cybersikkerhed og at holde AI sikker. Kan du dele din rejse i, hvordan du blev tiltrukket af begge omrĂĄder?
Min forskningsbane er blevet drevet af to mine kerneinteresser: at finde ud af, hvordan tingene går i stykker, og at lære om det menneskelige sinds mekanik. Jeg har været aktivt involveret i cybersikkerhed siden mine tidlige teenageår og byggede derfor min tidlige forskningsdagsorden op omkring de klassiske problemer i dette domæne. Få år inde i mine kandidatstudier faldt jeg over en sjælden mulighed for at ændre mit forskningsområde. På det tidspunkt var jeg lige stødt på de tidlige værker af Szegedy og Goodfellow om modstridende eksempelangreb, og fandt ideen om at angribe maskinlæring meget spændende. Da jeg så dybere ind i dette problem, kom jeg til at lære om det mere generelle felt af AI-sikkerhed og -sikkerhed og fandt ud af, at det omfattede mange af mine kerneinteresser, såsom cybersikkerhed, kognitiv videnskab, økonomi og filosofi. Jeg kom også til at tro, at forskning på dette område ikke kun er fascinerende, men også afgørende for at sikre de langsigtede fordele og sikkerheden ved AI-revolutionen.
Du er direktør for Secure and Assured Intelligent Learning (SAIL) Lab, som arbejder på at lægge konkrete fundamenter for sikkerheden og sikkerheden af ​​intelligente maskiner. Kan du gå ind i nogle detaljer vedrørende arbejde udført af SAIL?
Hos SAIL arbejder mine studerende og jeg med problemer, der ligger i krydsfeltet mellem sikkerhed, AI og komplekse systemer. Det primære fokus for vores forskning er at undersøge sikkerheden og sikkerheden af ​​intelligente systemer, fra både det teoretiske og det anvendte perspektiv. På den teoretiske side undersøger vi i øjeblikket værdijusteringsproblemet i multi-agent-indstillinger og udvikler matematiske værktøjer til at evaluere og optimere AI-agenternes mål med hensyn til stabilitet og robuste justeringer. På den praktiske side udforsker nogle af vores projekter sikkerhedssårbarhederne ved de avancerede AI-teknologier, såsom autonome køretøjer og algoritmisk handel, og sigter mod at udvikle teknikker til at evaluere og forbedre sådanne teknologiers modstandsdygtighed over for modstridende angreb.
Vi arbejder også med applikationer af maskinlæring i cybersikkerhed, såsom automatiseret penetrationstest, tidlig detektering af indtrængensforsøg og automatiseret trusselsintelligensindsamling og -analyse fra åbne datakilder såsom sociale medier.
Du førte for nylig et forsøg på at foreslå modellering af AI-sikkerhedsproblemer som psykopatologiske lidelser. Kan du forklare, hvad dette er?
Dette projekt adresserer den hurtigt voksende kompleksitet af AI-agenter og -systemer: det er allerede meget vanskeligt at diagnosticere, forudsige og kontrollere usikker adfærd hos forstærkningslæringsagenter i ikke-trivielle omgivelser ved blot at se på deres lavniveaukonfigurationer. I dette arbejde understreger vi behovet for abstraktioner på højere niveau i undersøgelsen af ​​sådanne problemer. Inspireret af de videnskabelige tilgange til adfærdsproblemer hos mennesker foreslår vi psykopatologi som en nyttig abstraktion på højt niveau til modellering og analyse af nye skadelige adfærd i AI og AGI. Som et bevis på konceptet studerer vi AI-sikkerhedsproblemet med belønningshacking i en RL-agent, der lærer at spille det klassiske spil Snake. Vi viser, at hvis vi tilføjer et "drug"-frø til miljøet, lærer agenten en suboptimal adfærd, der kan beskrives via neurovidenskabelige modeller for afhængighed. Dette arbejde foreslår også kontrolmetoder baseret på de behandlingstilgange, der anvendes i psykiatrien. For eksempel foreslår vi brugen af ​​kunstigt genererede belønningssignaler som analoger til medicinbehandling til at modificere midlers skadelige adfærd.
Har du nogen bekymringer med AI-sikkerhed, når det kommer til autonome køretøjer?
Autonome køretøjer er ved at blive fremtrædende eksempler på implementering af kunstig intelligens i cyberfysiske systemer. I betragtning af de nuværende maskinlæringsteknologiers grundlæggende modtagelighed for fejltagelser og modstridende angreb, er jeg dybt bekymret over sikkerheden og sikkerheden for selv semi-autonome køretøjer. Også området for autonom kørsel lider under en alvorlig mangel på sikkerhedsstandarder og evalueringsprotokoller. Jeg er dog fortsat håbefuld. I lighed med naturlig intelligens vil AI også være tilbøjelig til at begå fejl. Alligevel kan målet med selvkørende biler stadig opfyldes, hvis hastigheden og virkningen af ​​sådanne fejl bliver lavet til at være lavere end menneskelige bilisters. Vi er vidne til en voksende indsats for at løse disse problemer i industrien og den akademiske verden såvel som i regeringerne.
Hacking af gadeskilte med klistermærker eller ved hjælp af andre midler kan forvirre computersynsmodulet i et autonomt køretøj. Hvor stort et problem tror du, det er?
Disse klistermærker, og modstridende eksempler generelt, giver anledning til grundlæggende udfordringer i robustheden af ​​maskinlæringsmodeller. For at citere George EP Box, "alle modeller er forkerte, men nogle er nyttige". Modstridende eksempler udnytter denne "forkerthed" af modeller, hvilket skyldes deres abstrakte natur, såvel som begrænsningerne af stikprøvedata, som de er trænet efter. Den seneste indsats inden for området modstridende maskinlæring har resulteret i enorme fremskridt i retning af at øge modstandsdygtigheden af ​​deep learning-modeller over for sådanne angreb. Fra et sikkerhedssynspunkt vil der altid være en måde at narre maskinlæringsmodeller på. Det praktiske formål med at sikre maskinlæringsmodeller er imidlertid at øge omkostningerne ved at implementere sådanne angreb til det punkt, hvor det er økonomisk umuligt.
Dit fokus er på sikkerheds- og sikkerhedsfunktionerne ved både dyb læring og dyb forstærkende læring. Hvorfor er dette så vigtigt?
Reinforcement Learning (RL) er den fremtrædende metode til at anvende maskinlæring til at kontrollere problemer, som per definition involverer manipulation af deres omgivelser. Derfor mener jeg, at systemer, der er baseret på RL, har betydeligt højere risiko for at forårsage store skader i den virkelige verden sammenlignet med andre maskinlæringsmetoder såsom klassificering. Dette problem forværres yderligere med integrationen af ​​Deep learning i RL, som gør det muligt at anvende RL i meget komplekse omgivelser. Det er også min opfattelse, at RL-rammen er tæt forbundet med de underliggende mekanismer for kognition i menneskelig intelligens, og at studere dens sikkerhed og sårbarheder kan føre til bedre indsigt i grænserne for beslutningstagning i vores sind.
Tror du, at vi er tæt på at opnå Artificial General Intelligence (AGI)?
Dette er et notorisk svært spørgsmål at besvare. Jeg mener, at vi i øjeblikket har byggestenene til nogle arkitekturer, der kan fremme fremkomsten af ​​AGI. Det kan dog tage et par år eller årtier mere at forbedre disse arkitekturer og øge omkostningseffektiviteten ved træning og vedligeholdelse af disse arkitekturer. I løbet af de kommende år vil vores agenter blive mere intelligente i et hurtigt voksende tempo. Jeg tror ikke, at fremkomsten af ​​AGI vil blive annonceret i form af en [videnskabeligt gyldig] overskrift, men som et resultat af gradvise fremskridt. Jeg tror heller ikke, at vi stadig ikke har en bredt accepteret metode til at teste og detektere eksistensen af ​​en AGI, og dette kan forsinke vores realisering af de første forekomster af AGI.
Hvordan opretholder vi sikkerheden i et AGI-system, der er i stand til at tænke selv og højst sandsynligt vil være eksponentielt mere intelligent end mennesker?
Jeg tror, ​​at den forenede teori om intelligent adfærd er økonomi og studiet af, hvordan agenter handler og interagerer for at opnå det, de ønsker. Menneskers beslutninger og handlinger bestemmes af deres mål, deres information og de tilgængelige ressourcer. Samfund og samarbejdsbestræbelser kommer ud af dets fordele for individuelle medlemmer af sådanne grupper. Et andet eksempel er straffeloven, der afskrækker visse beslutninger ved at lægge en høj pris på handlinger, der kan skade samfundet. På samme måde tror jeg, at styring af incitamenter og ressourcer kan muliggøre fremkomsten af ​​en tilstand af ligevægt mellem mennesker og tilfælde af AGI. I øjeblikket undersøger AI-sikkerhedssamfundet denne afhandling under paraplyen af ​​værditilpasningsproblemer.
Et af de områder, man nøje følger, er terrorbekæmpelse. Har du bekymringer over, at terrorister overtager AI- eller AGI-systemer?
Der er mange bekymringer om misbrug af AI-teknologier. I tilfælde af terroroperationer er den største bekymring den lethed, hvormed terrorister kan udvikle og udføre autonome angreb. Et stigende antal af mine kolleger advarer aktivt mod risikoen ved at udvikle autonome våben (se https://autonomousweapons.org/ ). Et af hovedproblemerne med AI-aktiverede våben er vanskelighederne med at kontrollere den underliggende teknologi: AI er på forkant med open source-forskning, og alle med adgang til internettet og hardware af forbrugerkvalitet kan udvikle skadelige AI-systemer. Jeg formoder, at fremkomsten af ​​autonome våben er uundgåelig, og tror, ​​at der snart vil være behov for nye teknologiske løsninger til at imødegå sådanne våben. Dette kan resultere i en kat-og-mus-cyklus, der giver næring til udviklingen af ​​AI-aktiverede våben, hvilket kan give anledning til alvorlige eksistentielle risici på lang sigt.
Hvad kan vi gøre for at holde AI-systemer sikre mod disse modstridende agenter?
Det første og fremmeste trin er uddannelse: Alle AI-ingeniører og praktikere skal lære om AI-teknologiers sårbarheder og overveje de relevante risici i design og implementering af deres systemer. Hvad angår mere tekniske anbefalinger, er der forskellige forslag og løsningskoncepter, der kan anvendes. For eksempel kan træning af maskinlæringsagenter i modstridende omgivelser forbedre deres modstandsdygtighed og robusthed mod unddragelse og politikmanipulationsangreb (se f.eks. mit papir med titlen "Uanset hvad der ikke dræber dyb forstærkningslæring, gør det stærkereEn anden løsning er at tage direkte højde for risikoen for kontradiktoriske angreb i agentens arkitektur (f.eks. Bayesianske tilgange til risikomodellering). Der er dog et stort hul på dette område, og det er behovet for universelle målinger og metoder til at evaluere AI-agenters robusthed over for kontradiktoriske angreb. Nuværende løsninger er for det meste ad hoc og giver ikke generelle mål for modstandsdygtighed over for alle typer angreb.
Er der andet, du gerne vil dele om nogen af ​​disse emner?
I 2014 skrev Scully et al. udgav et indlæg på NeurIPS-konferencen med et meget oplysende emne: "Machine Learning: Højrentekreditkortet for teknisk gæld“. Selv med alle fremskridt inden for området i de sidste par år, har denne erklæring endnu ikke mistet sin gyldighed. Den nuværende tilstand af AI og maskinlæring er intet mindre end ærefrygtindgydende, men vi mangler endnu at udfylde et betydeligt antal store huller i både fundamentet og de tekniske dimensioner af AI. Denne kendsgerning er efter min mening den vigtigste takeaway af vores samtale. Jeg mener selvfølgelig ikke at fraråde den kommercielle overtagelse af AI-teknologier, men jeg ønsker kun at gøre det muligt for ingeniørsamfundet at redegøre for risici og begrænsninger ved nuværende AI-teknologier i deres beslutninger.
Jeg nød virkelig at lære om sikkerheds- og sikkerhedsudfordringerne ved forskellige typer AI-systemer. Dette er virkelig noget, som enkeltpersoner, virksomheder og regeringer skal blive opmærksomme på. Læsere, der ønsker at lære mere, bør besøge Secure and Assured Intelligent Learning (SAIL) Lab.