AGI

Vahid Behzadan, directeur du laboratoire SAIL (Secure and Assured Intelligent Learning) – Série d’entretiens

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vahid est professeur adjoint de sciences informatiques et de sciences des données à l’Université de New Haven. Il est également directeur du laboratoire SAIL (Secure and Assured Intelligent Learning)

Ses domaines de recherche incluent la sécurité et la sûreté des systèmes intelligents, la modélisation psychologique des problèmes de sûreté de l’IA, la sécurité des systèmes adaptatifs complexes, la théorie des jeux, les systèmes multi-agents et la cybersécurité.

Vous avez une expérience approfondie en cybersécurité et en sécurité de l’IA. Pouvez-vous partager votre parcours et comment vous vous êtes intéressé à ces deux domaines ?

Ma trajectoire de recherche a été alimentée par deux intérêts fondamentaux : découvrir comment les choses se cassent et apprendre les mécanismes de l’esprit humain. J’ai été actif dans la cybersécurité depuis mes premières années d’adolescence et j’ai construit mon agenda de recherche précoce autour des problèmes classiques de ce domaine. Quelques années plus tard, pendant mes études supérieures, j’ai eu l’occasion de changer de domaine de recherche. À ce moment-là, j’avais juste découvert les premiers travaux de Szegedy et Goodfellow sur les attaques d’exemples adverses et j’ai trouvé l’idée d’attaquer l’apprentissage automatique très intrigante. Alors que je plongeais plus profondément dans ce problème, j’ai appris à connaître le domaine plus général de la sûreté et de la sécurité de l’IA et j’ai constaté qu’il englobait beaucoup de mes intérêts fondamentaux, tels que la cybersécurité, les sciences cognitives, l’économie et la philosophie. J’ai également cru que la recherche dans ce domaine n’est pas seulement fascinante, mais également vitale pour assurer les avantages et la sûreté à long terme de la révolution de l’IA.

Vous êtes le directeur du laboratoire SAIL qui vise à établir des fondations concrètes pour la sûreté et la sécurité des machines intelligentes. Pouvez-vous donner des détails sur les travaux menés par SAIL ?

Au SAIL, mes étudiants et moi travaillons sur des problèmes qui se situent à l’intersection de la sécurité, de l’IA et des systèmes complexes. L’objectif principal de notre recherche est d’étudier la sûreté et la sécurité des systèmes intelligents, à la fois du point de vue théorique et appliqué. Du point de vue théorique, nous étudions actuellement le problème d’alignement des valeurs dans les contextes multi-agents et développons des outils mathématiques pour évaluer et optimiser les objectifs des agents IA en termes de stabilité et d’alignement robuste. Du point de vue pratique, certains de nos projets explorent les vulnérabilités de sécurité des technologies IA de pointe, telles que les véhicules autonomes et la négociation algorithmique, et visent à développer des techniques pour évaluer et améliorer la résilience de ces technologies face aux attaques adverses.

Nous travaillons également sur les applications de l’apprentissage automatique en cybersécurité, telles que les tests de pénétration automatisés, la détection précoce des tentatives d’intrusion et la collecte et l’analyse automatisées des menaces à partir de sources de données ouvertes telles que les médias sociaux.

Vous avez récemment mené une initiative pour proposer la modélisation des problèmes de sûreté de l’IA comme des troubles psychopathologiques. Pouvez-vous expliquer ce que c’est ?

Ce projet aborde la complexité croissante des agents et systèmes IA : il est déjà très difficile de diagnostiquer, prédire et contrôler les comportements dangereux des agents d’apprentissage par renforcement dans des contextes non triviaux en regardant simplement leurs configurations de bas niveau. Dans ce travail, nous soulignons la nécessité d’abstractions de niveau supérieur pour étudier ces problèmes. Inspirés par les approches scientifiques pour les problèmes de comportement chez les humains, nous proposons la psychopathologie comme une abstraction de niveau supérieur utile pour modéliser et analyser les comportements émergents délétères dans l’IA et l’AGI. À titre de preuve de concept, nous étudions le problème de sûreté de l’IA de piratage de récompense dans un agent d’apprentissage par renforcement qui apprend à jouer au jeu classique de Snake. Nous montrons que si nous ajoutons une “drogue” à l’environnement, l’agent apprend un comportement sous-optimal qui peut être décrit par des modèles neuroscientifiques d’addiction. Ce travail propose également des méthodologies de contrôle basées sur les approches de traitement utilisées en psychiatrie. Par exemple, nous proposons l’utilisation de signaux de récompense générés artificiellement comme analogues de la thérapie médicamenteuse pour modifier le comportement délétère des agents.

Avez-vous des inquiétudes concernant la sûreté de l’IA lorsqu’il s’agit de véhicules autonomes ?

Les véhicules autonomes deviennent des exemples prometteurs de déploiement de l’IA dans les systèmes cyberphysiques. Compte tenu de la susceptibilité fondamentale des technologies d’apprentissage automatique actuelles aux erreurs et aux attaques adverses, je suis profondément inquiet pour la sûreté et la sécurité même des véhicules semi-autonomes. De plus, le domaine de la conduite autonome souffre d’un manque grave de normes de sûreté et de protocoles d’évaluation. Cependant, je reste optimiste. Semblable à l’intelligence naturelle, l’IA sera également sujette à des erreurs. Pourtant, l’objectif des voitures sans conducteur peut encore être satisfait si les taux et l’impact de ces erreurs sont rendus inférieurs à ceux des conducteurs humains. Nous assistons à des efforts croissants pour résoudre ces problèmes dans l’industrie et l’université, ainsi que dans les gouvernements.

Le piratage des panneaux de signalisation avec des autocollants ou en utilisant d’autres moyens peut confondre le module de vision par ordinateur d’un véhicule autonome. Quelle est l’ampleur de ce problème, selon vous ?

Ces autocollants, et les exemples adverses en général, posent des défis fondamentaux à la robustesse des modèles d’apprentissage automatique. Pour citer George E. P. Box, “tous les modèles sont faux, mais certains sont utiles”. Les exemples adverses exploitent cette “fausseté” des modèles, due à leur nature abstraite, ainsi qu’aux limites des données échantillonnées sur lesquelles ils sont formés. Les efforts récents dans le domaine de l’apprentissage automatique adversatif ont permis de réaliser des progrès considérables pour accroître la résilience des modèles d’apprentissage profond face à de telles attaques. Du point de vue de la sécurité, il y aura toujours un moyen de tromper les modèles d’apprentissage automatique. Cependant, l’objectif pratique de sécuriser les modèles d’apprentissage automatique est d’augmenter le coût de la mise en œuvre de telles attaques jusqu’à un point de non-rentabilité économique.

Votre focalisation est sur les fonctionnalités de sûreté et de sécurité des apprentissages profonds et de l’apprentissage par renforcement profond. Pourquoi est-ce si important ?

L’apprentissage par renforcement (RL) est la méthode principale pour appliquer l’apprentissage automatique aux problèmes de contrôle, qui impliquent par définition la manipulation de leur environnement. Par conséquent, je crois que les systèmes basés sur le RL présentent des risques significativement plus élevés de causer des dommages importants dans le monde réel par rapport aux autres méthodes d’apprentissage automatique, telles que la classification. Ce problème est encore exacerbé par l’intégration de l’apprentissage profond dans le RL, ce qui permet l’adoption du RL dans des contextes complexes. De plus, je pense que le cadre du RL est étroitement lié aux mécanismes sous-jacents de la cognition dans l’intelligence humaine, et que l’étude de sa sûreté et de ses vulnérabilités peut conduire à de meilleures connaissances des limites de la prise de décision dans nos esprits.

Croyez-vous que nous sommes proches d’atteindre l’intelligence artificielle générale (IAG) ?

C’est une question notoirement difficile à répondre. Je crois que nous disposons actuellement des éléments de base de certaines architectures qui peuvent faciliter l’émergence de l’IAG. Cependant, il faudra peut-être quelques années ou décennies pour améliorer ces architectures et accroître l’efficacité coût-efficacité de leur formation et de leur maintenance. Au cours des prochaines années, nos agents vont devenir de plus en plus intelligents à un rythme croissant. Je ne pense pas que l’émergence de l’IAG sera annoncée sous la forme d’un titre [scientifiquement valable], mais comme le résultat d’un progrès progressif. De plus, je pense que nous ne disposons pas encore d’une méthodologie largement acceptée pour tester et détecter l’existence d’une IAG, et cela peut retarder notre prise de conscience des premières instances d’IAG.

Comment maintenir la sûreté dans un système IAG capable de penser par lui-même et qui sera probablement beaucoup plus intelligent que les humains ?

Je crois que la théorie unifiée de l’intelligence est l’économie et l’étude de la façon dont les agents agissent et interagissent pour atteindre ce qu’ils veulent. Les décisions et les actions des humains sont déterminées par leurs objectifs, leurs informations et les ressources disponibles. Les sociétés et les efforts de collaboration émergent de leurs avantages pour les membres individuels de ces groupes. Un autre exemple est le code criminel, qui dissuade certaines décisions en attachant un coût élevé aux actions qui peuvent nuire à la société. De la même manière, je crois que contrôler les incitations et les ressources peut permettre l’émergence d’un état d’équilibre entre les humains et les instances d’IAG. Actuellement, la communauté de la sûreté de l’IA étudie cette thèse sous l’angle des problèmes d’alignement des valeurs.

L’un des domaines que vous suivez de près est la lutte contre le terrorisme. Avez-vous des inquiétudes concernant les terroristes qui prennent le contrôle des systèmes IAG ?

Il existe de nombreuses inquiétudes concernant les mauvaises utilisations des technologies IA. Dans le cas des opérations terroristes, la principale inquiétude est la facilité avec laquelle les terroristes peuvent développer et mener des attaques autonomes. Un nombre croissant de mes collègues avertissent activement contre les risques de développement d’armes autonomes (voir https://autonomousweapons.org/ ). L’un des principaux problèmes avec les armes IA est la difficulté de contrôler la technologie sous-jacente : l’IA est à la pointe de la recherche open source, et quiconque ayant accès à Internet et au matériel grand public peut développer des systèmes IA nuisibles. Je soupçonne que l’émergence d’armes autonomes est inévitable et que nous aurons bientôt besoin de nouvelles solutions technologiques pour contrer de telles armes. Cela peut entraîner un cycle de course aux armements qui alimente l’évolution des armes IA, ce qui peut donner lieu à des risques existentiels graves à long terme.

Que pouvons-nous faire pour garder les systèmes IA en sécurité face à ces agents adverses ?

La première et la plus importante étape est l’éducation : tous les ingénieurs et les praticiens IA doivent apprendre les vulnérabilités des technologies IA et considérer les risques pertinents dans la conception et la mise en œuvre de leurs systèmes. En ce qui concerne les recommandations techniques, il existe diverses propositions et concepts de solutions qui peuvent être employés. Par exemple, la formation d’agents d’apprentissage automatique dans des contextes adverses peut améliorer leur résilience et leur robustesse face aux attaques d’évasion et de manipulation de politiques (par exemple, voir mon article intitulé “Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger“). Une autre solution est de prendre directement en compte le risque d’attaques adverses dans l’architecture de l’agent (par exemple, les approches bayésiennes de modélisation des risques). Cependant, il existe un grand fossé dans ce domaine, et c’est le besoin de métriques et de méthodologies universelles pour évaluer la robustesse des agents IA face aux attaques adverses. Les solutions actuelles sont principalement ad hoc et ne fournissent pas de mesures générales de résilience face à tous les types d’attaques.

Y a-t-il autre chose que vous aimeriez partager sur l’un de ces sujets ?

En 2014, Scully et al. ont publié un article à la conférence NeurIPS avec un sujet très éclairant : “Machine Learning: The High-Interest Credit Card of Technical Debt“. Même avec tous les progrès du domaine au cours des dernières années, cette affirmation n’a pas encore perdu sa validité. L’état actuel de l’IA et de l’apprentissage automatique n’est pas loin de l’admiration, mais nous n’avons pas encore comblé un certain nombre de lacunes importantes dans les dimensions fondamentales et d’ingénierie de l’IA. Ce fait, à mon avis, est la conclusion la plus importante de notre conversation. Je ne veux pas décourager l’adoption commerciale des technologies IA, mais permettre à la communauté d’ingénieurs de prendre en compte les risques et les limites des technologies IA actuelles dans leurs décisions.

J’ai vraiment apprécié d’apprendre sur les défis de sûreté et de sécurité des différents types de systèmes IA. C’est vraiment quelque chose dont les individus, les entreprises et les gouvernements doivent devenir conscients. Les lecteurs qui souhaitent en savoir plus devraient visiter Secure and Assured Intelligent Learning (SAIL) Lab.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.

Unite.AI

Vahid Behzadan, directeur du laboratoire SAIL (Secure and Assured Intelligent Learning) – Série d’entretiens

You may like