Entretiens

Rebecca Qian, Co-Fondateur et CTO de Patronus AI – SĂ©rie d’entretiens

mm

Rebecca Qian est la co-fondatrice et la directrice technique de Patronus AI, avec près d’une décennie d’expérience dans la construction de systèmes d’apprentissage automatique de production à l’intersection de la NLP, de l’IA incarnée et de l’infrastructure. Chez Facebook AI, elle a travaillé à la fois sur la recherche et le déploiement, en formant FairBERTa, un grand modèle de langage conçu avec des objectifs de justice, en développant un modèle de perturbation démographique pour réécrire le contenu de Wikipedia et en dirigeant l’analyse sémantique pour les assistants robotiques. Elle a également construit des pipelines humains dans la boucle pour les agents incarnés et créé des outils d’infrastructure tels que la mise en exploitation continue de l’extraction de jeux de contraste, qui a été adoptée par les équipes d’infrastructure de Facebook et présentée à ICSE. Elle a contribué à des projets open source, notamment FacebookResearch/fairo et les cahiers de notes de parsing sémantique Droidlet. En tant que fondatrice, elle se concentre désormais sur la surveillance à grande échelle, l’apprentissage par renforcement et le déploiement d’agents d’IA sûrs et conscients de l’environnement.

Patronus AI est une entreprise basée à San Francisco qui propose une plate-forme axée sur la recherche pour évaluer, surveiller et optimiser les grands modèles de langage (LLM) et les agents d’IA pour aider les développeurs à livrer des produits d’IA génératifs fiables avec confiance. La plate-forme offre des outils d’évaluation automatisés, des benchmarks, des analyses, des ensembles de données personnalisés et des environnements spécifiques aux agents qui identifient les problèmes de performance tels que les hallucinations, les risques de sécurité ou les défaillances logiques, permettant ainsi aux équipes d’améliorer et de dépanner en permanence les systèmes d’IA dans des cas d’utilisation réels. Patronus sert des clients d’entreprise et des partenaires technologiques en leur donnant les moyens d’évaluer le comportement des modèles, de détecter les erreurs à grande échelle et d’améliorer la fiabilité et les performances dans les applications d’IA de production.

Vous avez une solide expérience dans la construction de systèmes d’apprentissage automatique chez Facebook AI, notamment sur FairBERTa et les pipelines humains dans la boucle. Comment cette expérience a-t-elle façonné votre perspective sur le déploiement et la sécurité de l’IA dans le monde réel ?

Travailler chez Meta AI m’a fait me concentrer sur ce qu’il faut pour rendre les modèles fiables dans la pratique, en particulier autour de la NLP responsable. J’ai travaillé sur des modèles de langage axés sur la justice, comme la formation de LLM avec des objectifs de justice, et j’ai vu de visu à quel point il est difficile d’évaluer et d’interpréter les sorties de modèle. Cela a façonné ma réflexion sur la sécurité. Si vous ne pouvez pas mesurer et comprendre le comportement du modèle, il est difficile de déployer l’IA avec confiance dans le monde réel.

Qu’est-ce qui vous a motivé à passer de l’ingénierie de recherche à l’entrepreneuriat, en co-fondant Patronus AI, et quel problème vous a-t-il semblé le plus urgent à résoudre à l’époque ?

L’évaluation est devenue un obstacle dans l’IA à l’époque. Je suis parti de Meta AI en avril pour lancer Patronus avec Anand, car j’avais vu de visu à quel point il est difficile d’évaluer et d’interpréter les sorties d’IA. Et une fois que l’IA générative a commencé à pénétrer les flux de travail d’entreprise, il était évident que ce n’était plus seulement un problème de laboratoire. 

Nous avons continué à entendre la même chose des entreprises. Elles voulaient adopter les LLM, mais elles ne pouvaient pas les tester de manière fiable, les surveiller ou comprendre les modes de défaillance comme les hallucinations, en particulier dans les industries réglementées où il y a très peu de tolérance pour les erreurs. 

Le problème urgent, au début, était de construire un moyen d’automatiser et de mettre à l’échelle l’évaluation des modèles – de noter les modèles dans des scénarios réels, de générer des cas de test adverses et de benchmarking – afin que les équipes puissent déployer avec confiance au lieu de deviner.

Patronus a récemment introduit des simulateurs génératifs comme des environnements adaptatifs pour les agents d’IA. Quelles sont les limites des approches d’évaluation ou de formation existantes qui vous ont conduit dans cette direction ?

Nous avons continué à voir une disparité croissante entre la façon dont les agents d’IA sont évalués et la façon dont ils sont censés performer dans le monde réel. Les benchmarks traditionnels mesurent des capacités isolées à un moment donné, mais le travail réel est dynamique. Les tâches sont interrompues, les exigences changent en cours d’exécution et les décisions se cumulent sur de longues périodes. Les agents peuvent paraître solides sur des tests statiques et échouer gravement une fois déployés. À mesure que les agents s’améliorent, ils saturent également les benchmarks fixes, ce qui fait que l’apprentissage atteint un plateau. Les simulateurs génératifs sont apparus comme un moyen de remplacer les tests statiques par des environnements vivants qui s’adaptent à mesure que l’agent apprend.

Comment voyez-vous les simulateurs génératifs changer la façon dont les agents d’IA sont formés et évalués par rapport aux benchmarks statiques ou aux ensembles de données fixes ?

Le changement est que les benchmarks cessent d’être des tests et commencent à devenir des environnements. Au lieu de présenter un ensemble fixe de questions, le simulateur génère l’assignation, les conditions environnementales et la logique d’évaluation en temps réel. À mesure que l’agent se comporte et s’améliore, l’environnement s’adapte. Cela fait disparaître la frontière traditionnelle entre formation et évaluation. Vous ne vous demandez plus si un agent passe un benchmark, mais si il peut opérer de manière fiable dans un système dynamique.

D’un point de vue technique, quels sont les idées architecturales de base derrière les simulateurs génératifs, en particulier autour de la génération de tâches, de la dynamique de l’environnement et des structures de récompense ?

À un niveau élevé, les simulateurs génératifs combinent l’apprentissage par renforcement avec la génération d’environnements adaptatifs. Le simulateur peut créer de nouvelles tâches, mettre à jour les règles du monde de manière dynamique et évaluer les actions d’un agent en temps réel. Un composant clé est ce que nous appelons un ajusteur de programme, qui analyse le comportement de l’agent et modifie la difficulté et la structure des scénarios pour maintenir l’apprentissage productif. Les structures de récompense sont conçues pour être vérifiables et spécifiques au domaine, de sorte que les agents soient guidés vers un comportement correct plutôt que des raccourcis superficiels.

À mesure que l’espace d’évaluation et d’outillage des agents d’IA devient de plus en plus encombré, qu’est-ce qui différencie le plus clairement l’approche de Patronus ?

Notre objectif est la validité écologique. Nous concevons des environnements qui reflètent les flux de travail humains réels, y compris les interruptions, les commutations de contexte, l’utilisation d’outils et la raison multi-étapes. Plutôt que d’optimiser les agents pour qu’ils paraissent bons sur des tests prédéfinis, nous nous concentrons sur l’exposition des types de défaillances qui comptent dans la production. Le simulateur évalue le comportement sur une période de temps, et non seulement les sorties en isolation.

Quels types de tâches ou de modes de défaillance bénéficient le plus de l’évaluation basée sur les simulateurs par rapport aux tests conventionnels ?

Les tâches à longue portée et à plusieurs étapes bénéficient le plus. Même de petits taux d’erreur par étape peuvent se cumuler en taux d’erreur majeurs sur des tâches complexes, que les benchmarks statiques ne parviennent pas à capturer. L’évaluation basée sur les simulateurs permet de mettre en évidence les défaillances liées au maintien de la trajectoire sur une longue période, à la gestion des interruptions, à la coordination de l’utilisation des outils et à l’adaptation lorsque les conditions changent en cours de tâche.

Comment l’apprentissage basé sur l’environnement change-t-il votre façon de penser à la sécurité de l’IA, et les simulateurs génératifs introduisent-ils de nouveaux risques tels que la piraterie de récompense ou les modes de défaillance émergents ?

L’apprentissage basé sur l’environnement rend en fait de nombreux problèmes de sécurité plus faciles à détecter. La piraterie de récompense a tendance à prospérer dans des environnements statiques où les agents peuvent exploiter des failles fixes. Dans les simulateurs génératifs, l’environnement lui-même est une cible mobile, ce qui rend ces raccourcis plus difficiles à maintenir. Cela dit, une conception soigneuse est toujours requise autour des récompenses et de la surveillance. L’avantage des environnements est qu’ils offrent un contrôle et une visibilité bien plus grands sur le comportement de l’agent que les benchmarks statiques ne pourraient jamais offrir.

En regardant cinq ans à l’avance, où voyez-vous Patronus AI en termes d’ambition technique et d’impact sur l’industrie ?

Nous croyons que les environnements deviennent des infrastructures fondamentales pour l’IA. À mesure que les agents passent de la réponse aux questions à la réalisation de travail réel, les environnements dans lesquels ils apprennent façonneront leur capacité et leur fiabilité. Notre ambition à long terme est de transformer les flux de travail réels en environnements structurés que les agents peuvent apprendre en continu. La séparation traditionnelle entre évaluation et formation est en train de disparaître, et nous pensons que ce changement définira la prochaine vague de systèmes d’IA.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter Patronus AI.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.