AGI

Vahid Behzadan, Director al laboratorului Secured and Assured Intelligent Learning (SAIL) – Seria de interviuri

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vahid este asistent universitar de științe computaționale și științe ale datelor la Universitatea din New Haven. El este, de asemenea, director al laboratorului Secure and Assured Intelligent Learning (SAIL) Lab

Interesele sale de cercetare includ siguranța și securitatea sistemelor inteligente, modelarea psihologică a problemelor de siguranță a inteligenței artificiale, securitatea sistemelor complexe adaptabile, teoria jocurilor, sistemele multi-agente și securitatea cibernetică.

Aveți o experiență vastă în domeniul securității cibernetice și al menținerii siguranței inteligenței artificiale. Puteți împărtăși drumul dvs. în aceste două domenii?

Traseul meu de cercetare a fost alimentat de două interese de bază: descoperirea modului în care lucrurile se strică și învățarea mecanismelor minții umane. Am fost implicat activ în securitatea cibernetică din adolescență și, în consecință, am construit agenda mea de cercetare în jurul problemelor clasice ale acestui domeniu. Câțiva ani mai târziu, în timpul studiilor mele de master, am avut oportunitatea de a schimba domeniul meu de cercetare. Atunci, tocmai descoperisem lucrările lui Szegedy și Goodfellow despre atacurile de exemple adverse și am găsit ideea de a ataca învățarea automată foarte interesantă. Pe măsură ce am cercetat mai profund această problemă, am aflat despre domeniul mai larg al siguranței și securității inteligenței artificiale și am descoperit că încorporează multe dintre interesele mele de bază, cum ar fi securitatea cibernetică, științele cognitive, economia și filosofia. Am ajuns, de asemenea, să cred că cercetarea în acest domeniu nu numai că este fascinantă, dar este și vitală pentru a asigura beneficiile pe termen lung și siguranța revoluției inteligenței artificiale.

Sunteți director al laboratorului Secure and Assured Intelligent Learning (SAIL), care lucrează la stabilirea unor fundații concrete pentru siguranța și securitatea mașinilor inteligente. Puteți oferi detalii despre munca desfășurată de SAIL?

La SAIL, eu și studenții mei lucrăm la probleme care se află la intersecția dintre securitate, inteligență artificială și sisteme complexe. Focusul principal al cercetării noastre este investigarea siguranței și securității sistemelor inteligente, atât din perspectivă teoretică, cât și aplicată. Din punct de vedere teoretic, cercetăm în prezent problema alinierii valorilor în setări multi-agente și dezvoltăm instrumente matematice pentru a evalua și optimiza obiectivele agenților de inteligență artificială în ceea ce privește stabilitatea și alinierea robustă. Din punct de vedere practic, unele dintre proiectele noastre explorează vulnerabilitățile de securitate ale tehnologiilor de inteligență artificială de ultimă generație, cum ar fi vehiculele autonome și tranzacționarea algoritmică, și urmăresc să dezvolte tehnici pentru evaluarea și îmbunătățirea rezilienței acestor tehnologii la atacuri adverse.

De asemenea, lucrăm la aplicațiile învățării automate în securitatea cibernetică, cum ar fi testarea de penetrare automată, detectarea timpurie a încercărilor de intruziune și colectarea și analiza automată a informațiilor despre amenințări din surse deschise de date, cum ar fi rețelele sociale.

Ați condus recent un efort pentru a propune modelarea problemelor de siguranță a inteligenței artificiale ca tulburări psihopatologice.

Acest proiect abordează complexitatea în creștere a agenților de inteligență artificială și a sistemelor: deja este foarte dificil să diagnosticăm, să prezicem și să controlăm comportamentele nesigure ale agenților de învățare prin întărire în setări ne-triviale, doar prin examinarea configurațiilor lor de nivel scăzut. În această lucrare, subliniem nevoia de abstracții de nivel superior pentru investigarea acestor probleme. Inspirat de abordările științifice ale problemelor comportamentale la oameni, propunem psihopatologia ca o abstracție utilă de nivel superior pentru modelarea și analiza comportamentelor dăunătoare emergente în inteligența artificială și în inteligența artificială generală. Ca demonstrație, studiem problema de siguranță a inteligenței artificiale a atacurilor de hacking de recompensă într-un agent de învățare prin întărire care învață să joace jocul clasic Snake. Arătăm că, dacă adăugăm o “drog” sămânță în mediu, agentul învață un comportament suboptimal care poate fi descris prin modele neuroștiințifice de dependență. Această lucrare propune, de asemenea, metodologii de control bazate pe abordările de tratament utilizate în psihiatrie. De exemplu, propunem utilizarea semnalelor de recompensă generate artificial ca analogi ai terapiei medicamentoase pentru modificarea comportamentului dăunător al agenților.

Aveți preocupări cu privire la siguranța inteligenței artificiale atunci când vine vorba de vehicule autonome?

Vehiculele autonome devin exemple proeminente de implementare a inteligenței artificiale în sisteme cibernetice. Având în vedere susceptibilitatea fundamentală a tehnologiilor actuale de învățare automată la greșeli și atacuri adverse, sunt profund preocupat de siguranța și securitatea vehiculelor autonome, chiar și a celor semi-autonome. De asemenea, domeniul conducerii autonome suferă de o lipsă gravă de standarde și protocoale de evaluare a siguranței. Cu toate acestea, rămân optimist. Asemenea inteligenței naturale, inteligența artificială va fi, de asemenea, predispusă la greșeli. Totuși, obiectivul mașinilor cu conducere autonomă poate fi încă satisfăcut dacă ratele și impactul acestor greșeli sunt reduse sub cele ale șoferilor umani. Asistăm la eforturi crescânde pentru a aborda aceste probleme în industrie și în mediul academic, precum și în guverne.

Hacking street signs cu autocolante sau utilizarea altor metode poate confunda modulul de vedere computerizată al unui vehicul autonom. Cât de mare este această problemă?

Aceste autocolante și exemplele adverse, în general, dau naștere la provocări fundamentale în ceea ce privește robustețea modelului de învățare automată. Pentru a cita lui George E. P. Box, “toate modelele sunt greșite, dar unele sunt utile”. Exemplele adverse exploatează “greșeala” acestor modele, care este cauzată de natura lor abstractă, precum și de limitările datelor eșantionate pe care sunt antrenate. Eforturile recente în domeniul învățării automate adverse au condus la progrese uriașe în creșterea rezilienței modelului de învățare profundă la astfel de atacuri. Din punct de vedere al securității, va exista întotdeauna o modalitate de a păcăli modelele de învățare automată. Cu toate acestea, obiectivul practic al securității modelului de învățare automată este de a crește costul implementării unor astfel de atacuri până la punctul de ineficiență economică.

Focalizarea dvs. se axează pe caracteristicile de siguranță și securitate ale învățării profunde și ale învățării prin întărire profundă. De ce este acest lucru atât de important?

Învățarea prin întărire (RL) este metoda principală de aplicare a învățării automate la probleme de control, care, prin definiție, implică manipularea mediului lor. Prin urmare, cred că sistemele bazate pe RL au riscuri semnificativ mai mari de a cauza daune majore în lumea reală comparativ cu alte metode de învățare automată, cum ar fi clasificarea. Această problemă este exacerbată și mai mult de integrarea învățării profunde în RL, care permite adoptarea RL în setări complexe. De asemenea, consider că cadrul RL este strâns legat de mecanismele subiacente ale cogniției în inteligența umană, și studierea siguranței și vulnerabilităților sale poate conduce la o mai bună înțelegere a limitelor procesului de luare a deciziilor în mințile noastre.

Credeti că suntem aproape de a atinge inteligența artificială generală (AGI)?

Acesta este un întrebare extrem de dificil de a răspuns. Cred că, în prezent, avem blocurile de construcție ale unor arhitecturi care pot facilita apariția AGI. Cu toate acestea, poate dura câțiva ani sau decenii pentru a îmbunătăți aceste arhitecturi și pentru a crește eficiența costurilor pentru antrenarea și menținerea acestor arhitecturi. În următorii ani, agenții noștri vor deveni tot mai inteligenți la un ritm în creștere rapidă. Nu cred că apariția AGI va fi anunțată sub forma unui titlu științific valid, ci ca rezultat al progresului gradual. De asemenea, cred că încă nu avem o metodologie larg acceptată pentru a testa și detecta existența AGI, și acest lucru poate întârzia realizarea noastră a primelor instanțe de AGI.

Cum putem menține siguranța într-un sistem AGI care este capabil să gândească singur și va fi, probabil, mult mai inteligent decât oamenii?

Cred că teoria unificată a comportamentului inteligent este economia și studiul modului în care agenții acționează și interacționează pentru a-și atinge obiectivele. Deciziile și acțiunile oamenilor sunt determinate de obiectivele, informațiile și resursele disponibile. Societățile și eforturile de colaborare sunt emergente din beneficiile pentru membrii individuali ai acestor grupuri. Un alt exemplu este codul penal, care descurajează anumite decizii prin atașarea unui cost ridicat acțiunilor care pot dăuna societății. În același mod, cred că controlul stimulentelor și resurselor poate permite apariția unui echilibru între oameni și instanțe de AGI. În prezent, comunitatea de siguranță a inteligenței artificiale investighează această teză sub umbrela problemelor de aliniere a valorilor.

Una dintre domeniile pe care le urmăriți îndeaproape este contra-terorismul. Aveți preocupări cu privire la faptul că teroriștii pot prelua sisteme de inteligență artificială sau AGI?

Există numeroase preocupări cu privire la utilizarea abuzivă a tehnologiilor de inteligență artificială. În cazul operațiunilor teroriste, principala preocupare este ușurința cu care teroriștii pot dezvolta și duce la îndeplinire atacuri autonome. Un număr tot mai mare de colegi ai mei avertizează activ cu privire la riscurile dezvoltării armelor autonome (a se vedea https://autonomousweapons.org/ ). Una dintre principalele probleme cu armele inteligente este dificultatea de a controla tehnologia subiacentă: inteligența artificială se află în fruntea cercetărilor deschise, și oricine are acces la internet și hardware de consum poate dezvolta sisteme de inteligență artificială dăunătoare. Suspectez că apariția armelor autonome este inevitabilă și cred că va exista curând nevoia de soluții tehnologice noi pentru a contracara astfel de arme. Acest lucru poate duce la un ciclu de “șoarece și pisică” care stimulează evoluția armelor inteligente, ceea ce poate da naștere la riscuri existențiale grave pe termen lung.

Ce putem face pentru a menține sistemele de inteligență artificială în siguranță de agenții adversi?

Primul și cel mai important pas este educația: toți inginerii și practicienii de inteligență artificială trebuie să învețe despre vulnerabilitățile tehnologiilor de inteligență artificială și să ia în considerare riscurile relevante în proiectarea și implementarea sistemelor lor. În ceea ce privește recomandările tehnice, există diverse propuneri și concepte de soluții care pot fi utilizate. De exemplu, antrenarea agenților de învățare automată în setări adverse poate îmbunătăți reziliența și robustețea lor împotriva atacurilor de evaziune și manipulare a politicii (de exemplu, a se vedea lucrarea mea intitulată “Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger“). O altă soluție este de a lua în considerare direct riscul atacurilor adverse în arhitectura agentului (de exemplu, abordări bayesiene pentru modelarea riscurilor). Cu toate acestea, există o lacună majoră în acest domeniu, și anume nevoia de metrice și metodologii universale pentru evaluarea robusteții agenților de inteligență artificială împotriva atacurilor adverse. Soluțiile actuale sunt, în mare parte, ad-hoc și nu oferă măsuri generale de rezistență la toate tipurile de atacuri.

Există altceva pe care ați dori să-l împărtășiți despre oricare dintre aceste subiecte?

În 2014, Scully et al. au publicat o lucrare la conferința NeurIPS cu un subiect foarte edificator: “Machine Learning: The High-Interest Credit Card of Technical Debt“. Chiar și cu toate progresele din domeniu în ultimii ani, această afirmație încă nu și-a pierdut valabilitatea. Starea actuală a inteligenței artificiale și a învățării automate nu este altceva decât uimitoare, dar încă nu am umplut un număr semnificativ de lacune majore atât în fundația, cât și în dimensiunile inginerești ale inteligenței artificiale. Acest lucru, în opinia mea, este cel mai important lucru de reținut din conversația noastră. Nu încerc să descurajez adoptarea comercială a tehnologiilor de inteligență artificială, ci doar să permit comunității de ingineri să ia în considerare riscurile și limitările tehnologiilor actuale de inteligență artificială în deciziile lor.

Mi-a plăcut să aflu despre provocările de siguranță și securitate ale diferitelor tipuri de sisteme de inteligență artificială. Acesta este cu adevărat ceva de care indivizii, corporațiile și guvernele trebuie să devină conștienți. Citiitorii care doresc să afle mai multe informații ar trebui să viziteze Laboratorul Secure and Assured Intelligent Learning (SAIL) Lab.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.

Unite.AI

Vahid Behzadan, Director al laboratorului Secured and Assured Intelligent Learning (SAIL) – Seria de interviuri

You may like