AGI

Vahid Behzadan, chef för Secured and Assured Intelligent Learning (SAIL) Lab – Intervjuserie

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vahid är biträdande professor i datavetenskap och datavetenskap vid University of New Haven. Han är också chef för Secure and Assured Intelligent Learning (SAIL) Lab

Hans forskningsintressen inkluderar säkerhet och säkerhet för intelligenta system, psykologisk modellering av AI-säkerhetsproblem, säkerhet för komplexa adaptiva system, spelteori, multi-agentsystem och cybersäkerhet.

Du har en omfattande bakgrund inom cybersäkerhet och att hålla AI säker. Kan du dela din resa om hur du blev intresserad av båda områdena?

Min forskningsbana har drivits av två kärnintressen: att ta reda på hur saker och ting fungerar och att lära mig om mekanismerna i den mänskliga hjärnan. Jag har varit aktivt involverad i cybersäkerhet sedan mina tidiga tonår och byggde därför min tidiga forskningsagenda runt de klassiska problemen inom detta område. Ett par år in i mina doktorandstudier fick jag en sällsynt möjlighet att ändra mitt forskningsområde. Vid den tiden hade jag just kommit över de tidiga arbetena av Szegedy och Goodfellow om adversarial exempelattacker och fann idén att attackera maskinlärning mycket intressant. När jag granskade problemet närmare lärde jag mig om det mer allmänna området AI-säkerhet och säkerhet, och fann att det omfattade många av mina kärnintressen, såsom cybersäkerhet, kognitiva vetenskaper, ekonomi och filosofi. Jag trodde också att forskning inom detta område inte bara är fascinerande, utan också avgörande för att säkerställa de långsiktiga fördelarna och säkerheten för AI-revolutionen.

Du är chef för Secure and Assured Intelligent Learning (SAIL) Lab som arbetar med att lägga konkreta grunder för säkerheten och säkerheten för intelligenta maskiner. Kan du gå in på några detaljer om arbetet som utförs av SAIL?

På SAIL arbetar mina studenter och jag med problem som ligger i skärningspunkten mellan säkerhet, AI och komplexa system. Det primära fokuset för vår forskning är att undersöka säkerheten och säkerheten för intelligenta system, från både teoretiska och tillämpade perspektiv. På den teoretiska sidan undersöker vi för närvarande värde-justeringsproblemet i multi-agentsammanhang och utvecklar matematiska verktyg för att utvärdera och optimera målen för AI-agenter i fråga om stabilitet och robusta justeringar. På den praktiska sidan undersöker några av våra projekt säkerhetsvänerligheterna för de senaste AI-teknologierna, såsom autonoma fordon och algoritmisk handel, och syftar till att utveckla tekniker för att utvärdera och förbättra motståndskraften hos sådana teknologier mot adversarialattacker.

Vi arbetar också med tillämpningarna av maskinlärning inom cybersäkerhet, såsom automatiserad penetrationstestning, tidig upptäckt av intrångsförsök och automatiserad hotinformationssamling och analys från öppna datakällor som sociala medier.

Du ledde nyligen en insats för att föreslå modellering av AI-säkerhetsproblem som psykopatologiska störningar. Kan du förklara vad detta är?

Detta projekt behandlar den snabbt växande komplexiteten hos AI-agenter och system: det är redan mycket svårt att diagnostisera, förutsäga och kontrollera osäkra beteenden hos förstärkt inlärningagenter i icke-triviala inställningar genom att bara titta på deras lågnivåkonfigurationer. I detta arbete betonar vi behovet av högnivåabstraktioner vid undersökning av sådana problem. Inspirerade av de vetenskapliga tillvägagångssätten för beteendeproblem hos människor, föreslår vi psykopatologi som en användbar högnivåabstraktion för modellering och analys av emergenta skadliga beteenden i AI och AGI. Som ett bevis på konceptet studerar vi AI-säkerhetsproblemet med belöningshacking i en RL-agent som lär sig att spela det klassiska spelet Snake. Vi visar att om vi lägger till en “drog” i miljön, lär sig agenten ett underoptimalt beteende som kan beskrivas via neurovetenskapliga modeller för beroende. Detta arbete föreslår också kontrollmetodologier baserade på behandlingsansatser som används inom psykiatri. Till exempel föreslår vi användningen av artificiellt genererade belöningsignaleringar som analoger till läkemedelsterapi för att modifiera de skadliga beteendena hos agenter.

Har du några bekymmer med AI-säkerhet när det gäller autonoma fordon?

Autonoma fordon blir alltmer framträdande exempel på att distribuera AI i cyber-fysiska system. Med tanke på den grundläggande sårbarheten hos nuvarande maskinlärningsteknologier för misstag och adversarialattacker, är jag djupt oroad över säkerheten och säkerheten för även semi-autonoma fordon. Även om fältet för autonom körning lider av en allvarlig brist på säkerhetsstandarder och utvärderingsprotokoll, förblir jag hoppfull. Liksom naturlig intelligens kommer AI också att vara benägen att göra misstag. Ändå kan målet med självkörande bilar fortfarande tillfredsställas om frekvensen och påverkan av sådana misstag görs lägre än de för mänskliga förare. Vi ser en ökning av ansträngningar för att hantera dessa problem inom industrin och akademin, samt regeringarna.

Hacking av vägskyltar med klistermärken eller med andra medel kan förvirra den datorseende modulen i ett autonomt fordon. Hur stor fråga tror du att detta är?

Dessa klistermärken och adversarial exempel i allmänhet ger upphov till grundläggande utmaningar i robustheten hos maskinlärningsmodeller. För att citera George E. P. Box, “alla modeller är fel, men några är användbara”. Adversarial exempel utnyttjar denna “felhet” hos modeller, som beror på deras abstrakta natur, samt begränsningarna i sampeldata som de tränas på. Nya ansträngningar inom området för adversarial maskinlärning har resulterat i enorma framsteg mot att öka motståndskraften hos djupa inlärningsmodeller mot sådana attacker. Ur ett säkerhetsperspektiv kommer det alltid att finnas ett sätt att lura maskinlärningsmodeller. Men det praktiska målet med att säkra maskinlärningsmodeller är att öka kostnaden för att implementera sådana attacker till den punkt där de blir ekonomiskt ogenomförbara.

Din fokus ligger på säkerhets- och säkerhetsfunktionerna för både djupinlärning och djup förstärkt inlärning. Varför är detta så viktigt?

Förstärkt inlärning (RL) är den framträdande metoden för att tillämpa maskinlärning på kontrollproblem, som per definition involverar manipulation av deras miljö. Därför tror jag att system som baseras på RL har betydligt högre risker för att orsaka stora skador i den verkliga världen jämfört med andra maskinlärningsmetoder, såsom klassificering. Detta problem förvärras ytterligare med integrationen av djupinlärning i RL, som möjliggör antagandet av RL i högt komplexa inställningar. Dessutom är det min åsikt att RL-ramverket är nära relaterat till de underliggande mekanismerna för kognition i mänsklig intelligens, och att studera dess säkerhet och sårbarhet kan leda till bättre insikter i begränsningarna för beslutsfattande i våra sinnen.

Tror du att vi är nära att uppnå artificiell allmän intelligens (AGI)?

Detta är en notoriskt svår fråga att svara på. Jag tror att vi för närvarande har byggnadsblocken för vissa arkitekturer som kan underlätta uppkomsten av AGI. Men det kan ta några fler år eller årtionden att förbättra dessa arkitekturer och förbättra kostnadseffektiviteten för utbildning och underhåll av dessa arkitekturer. Under de kommande åren kommer våra agenter att bli alltmer intelligenta i en snabbt växande takt. Jag tror inte att uppkomsten av AGI kommer att tillkännages i form av en [vetenskapligt giltig] rubrik, utan som resultatet av gradvis framsteg. Dessutom tror jag att vi fortfarande inte har en allmänt accepterad metod för att testa och upptäcka existensen av en AGI, och detta kan försena vår förståelse av de första exemplen på AGI.

Hur kan vi upprätthålla säkerhet i ett AGI-system som kan tänka för sig själv och som sannolikt kommer att vara exponentiellt mer intelligent än människor?

Jag tror att den förenade teorin om intelligent beteende är ekonomi och studiet av hur agenter agerar och interagerar för att uppnå vad de vill. Besluten och handlingarna hos människor bestäms av deras mål, deras information och de tillgängliga resurserna. Samhällen och samarbetsinsatser är emergent från dess fördelar för enskilda medlemmar i sådana grupper. Ett annat exempel är brottsbalken, som avskräcker vissa beslut genom att fästa en hög kostnad till handlingar som kan skada samhället. På samma sätt tror jag att kontrollen av incitamenten och resurserna kan möjliggöra uppkomsten av en jämviktstillstånd mellan människor och instanser av AGI. För närvarande undersöker AI-säkerhetsgemenskapen denna tes under paraplyet för värde-justeringsproblem.

En av de områden du följer noga är motterrorism. Har du några bekymmer med att terrorister tar över AI- eller AGI-system?

Det finns många bekymmer om missbruk av AI-teknologier. I fallet med terroristoperationer är det stora bekymret lättheten med vilken terrorister kan utveckla och genomföra autonoma attacker. Många av mina kollegor varnar aktivt mot riskerna med att utveckla autonoma vapen (se https://autonomousweapons.org/ ). Ett av de stora problemen med AI-aktiverade vapen är svårigheten att kontrollera den underliggande teknologin: AI är i framkanten av öppen källkods-forskning, och vem som helst med tillgång till internet och konsumentklass-hårdvara kan utveckla skadliga AI-system. Jag misstänker att uppkomsten av autonoma vapen är oundviklig, och tror att det snart kommer att finnas ett behov av nya tekniska lösningar för att motverka sådana vapen. Detta kan leda till en katt-och-mus-lek som driver utvecklingen av AI-aktiverade vapen, vilket kan ge upphov till allvarliga existentiella risker på lång sikt.

Vad kan vi göra för att hålla AI-system säkra från dessa adversariala agenter?

Det första och viktigaste steget är utbildning: Alla AI-ingenjörer och praktiker måste lära sig om sårbarheterna hos AI-teknologier och överväga de relevanta riskerna vid design och implementering av sina system. När det gäller mer tekniska rekommendationer finns det olika förslag och lösningkoncept som kan användas. Till exempel kan utbildning av maskinlärningsagenter i adversariala inställningar förbättra deras motståndskraft och robusthet mot undvikande- och policymanipulationsattacker (t.ex. se min artikel med titeln “Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger“). En annan lösning är att direkt ta hänsyn till risken för adversariala attacker i agentens arkitektur (t.ex. bayesianska tillvägagångssätt för riskmodellering). Det finns dock ett stort gap i detta område, och det är behovet av universella mått och metoder för att utvärdera robustheten hos AI-agenter mot adversariala attacker. Nuvarande lösningar är mestadels ad hoc och lyckas inte med att ge allmänna mått på motståndskraft mot alla typer av attacker.

Finns det något annat du vill dela om något av dessa ämnen?

2014 publicerade Scully et al. en artikel på NeurIPS-konferensen med ett mycket upplysande ämne: “Machine Learning: The High-Interest Credit Card of Technical Debt“. Även med alla framsteg inom området under de senaste åren, har denna uttalande ännu inte förlorat sin giltighet. Nuvarande tillstånd för AI och maskinlärning är ingenting mindre än imponerande, men vi har fortfarande inte fyllt ett betydande antal stora gap i både grunden och ingenjörsmässiga dimensionerna av AI. Detta faktum, enligt min åsikt, är den viktigaste takeaway från vår konversation. Jag menar inte att avskräcka den kommersiella antagandet av AI-teknologier, men bara vill möjliggöra för ingenjörssamhället att ta hänsyn till riskerna och begränsningarna hos nuvarande AI-teknologier i deras beslut.

Jag njöt verkligen av att lära mig om säkerhets- och säkerhetsutmaningarna för olika typer av AI-system. Detta är verkligen något som individer, företag och regeringar måste bli medvetna om. Läsare som vill lära sig mer bör besöka Secure and Assured Intelligent Learning (SAIL) Lab.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI

Vahid Behzadan, chef för Secured and Assured Intelligent Learning (SAIL) Lab – Intervjuserie

You may like