Entretiens
Anand Kannappan, PDG et co-fondateur de Patronus AI – Série d’entretiens

Anand Kannappan est co-fondateur et PDG de Patronus AI, la première plateforme automatisée d’évaluation et de sécurité de l’IA pour aider les entreprises à détecter les erreurs des LLM à grande échelle. Auparavant, Anand a dirigé les efforts d’explication de ML et d’expérimentation avancée chez Meta Reality Labs.
Qu’est-ce qui vous a initialement attiré vers l’informatique ?
En grandissant, j’ai toujours été fasciné par la technologie et la façon dont elle pouvait être utilisée pour résoudre des problèmes du monde réel. L’idée de pouvoir créer quelque chose à partir de rien en utilisant juste un ordinateur et du code m’a intrigué. Au fur et à mesure que j’ai plongé plus profondément dans l’informatique, j’ai réalisé le potentiel immense qu’elle détient pour l’innovation et la transformation dans diverses industries. Cette envie d’innover et de faire une différence est ce qui m’a initialement attiré vers l’informatique.
Pouvez-vous partager l’histoire de la genèse de Patronus AI ?
La genèse de Patronus AI est un voyage intéressant. Lorsque OpenAI a lancé ChatGPT, il est devenu le produit consommateur à la croissance la plus rapide, réunissant plus de 100 millions d’utilisateurs en juste deux mois. Cette adoption massive a mis en évidence le potentiel de l’IA générative, mais elle a également souligné l’hésitation des entreprises à déployer l’IA à un rythme si rapide. De nombreuses entreprises étaient préoccupées par les erreurs potentielles et le comportement imprévisible des grands modèles de langage (LLM).
Rebecca et moi nous connaissons depuis des années, ayant étudié l’informatique ensemble à l’Université de Chicago. Chez Meta, nous avons tous les deux rencontré des défis dans l’évaluation et l’interprétation des sorties de l’apprentissage automatique – Rebecca d’un point de vue de la recherche et moi d’un point de vue appliqué. Lorsque ChatGPT a été annoncé, nous avons tous les deux vu le potentiel de transformation des LLM, mais nous avons également compris la prudence que les entreprises exerçaient.
Le point de basculement est arrivé lorsque la banque d’investissement de mon frère, Piper Sandler, a décidé d’interdire l’accès à OpenAI en interne. Cela nous a fait réaliser que même si l’IA avait avancé considérablement, il y avait encore un fossé dans l’adoption des entreprises en raison de préoccupations concernant la fiabilité et la sécurité. Nous avons fondé Patronus AI pour combler ce fossé et renforcer la confiance des entreprises dans l’IA générative en fournissant une couche d’évaluation et de sécurité pour les LLM.
Pouvez-vous décrire la fonctionnalité principale de la plateforme Patronus AI pour évaluer et sécuriser les LLM ?
Notre mission est d’améliorer la confiance des entreprises dans l’IA générative. Nous avons développé la première plateforme automatisée d’évaluation et de sécurité spécifiquement pour les LLM. Notre plateforme aide les entreprises à détecter les erreurs dans les sorties des LLM à grande échelle, leur permettant de déployer des produits d’IA en toute sécurité et avec confiance.
Notre plateforme automatise plusieurs processus clés :
- Notation : Nous évaluons les performances du modèle dans des scénarios du monde réel, en nous concentrant sur des critères importants tels que les hallucinations et la sécurité.
- Génération de tests : Nous générons automatiquement des suites de tests adverses à grande échelle pour évaluer rigoureusement les capacités du modèle.
- Benchmarking : Nous comparons différents modèles pour aider les clients à identifier le meilleur ajustement pour leurs cas d’utilisation spécifiques.
Les entreprises préfèrent des évaluations fréquentes pour s’adapter à des modèles, des données et des besoins des utilisateurs en constante évolution. Notre plateforme agit comme un évaluateur tiers de confiance, fournissant une perspective impartiale similaire à celle de Moody’s dans l’espace de l’IA. Nos premiers partenaires incluent des entreprises d’IA de premier plan comme MongoDB, Databricks, Cohere et Nomic AI, et nous sommes en discussion avec plusieurs sociétés de premier plan dans des industries traditionnelles pour tester notre plateforme.
Quels types d’erreurs ou « hallucinations » le modèle Lynx de Patronus AI détecte-t-il dans les sorties des LLM, et comment résout-il ces problèmes pour les entreprises ?
Les LLM sont effectivement des outils puissants, mais leur nature probabiliste les rend sujets à des « hallucinations », ou des erreurs où le modèle génère des informations inexactes ou non pertinentes. Ces hallucinations sont problématiques, en particulier dans des environnements d’entreprise à haut risque où l’exactitude est critique.
Traditionnellement, les entreprises ont reposé sur l’inspection manuelle pour évaluer les sorties des LLM, un processus qui est non seulement chronophage mais également non évolutif. Pour rationaliser cela, Patronus AI a développé Lynx, un modèle spécialisé qui améliore la capacité de notre plateforme en automatisant la détection des hallucinations. Lynx, intégré dans notre plateforme, fournit une couverture de test complète et des garanties de performances robustes, en se concentrant sur l’identification des erreurs critiques qui pourraient avoir un impact significatif sur les opérations commerciales, telles que des calculs financiers incorrects ou des erreurs dans les examens de documents juridiques.
Avec Lynx, nous atténuons les limites de l’évaluation manuelle grâce à des tests adverses automatisés, en explorant un large éventail de scénarios de défaillance potentiels. Cela permet la détection de problèmes qui pourraient échapper aux évaluateurs humains, offrant aux entreprises une fiabilité et une confiance accrues pour déployer des LLM dans des applications critiques.
FinanceBench est décrit comme le premier benchmark pour évaluer les performances des LLM sur des questions financières. Quels défis dans le secteur financier ont conduit au développement de FinanceBench ?
FinanceBench a été développé en réponse aux défis uniques auxquels le secteur financier est confronté pour adopter les LLM. Les applications financières nécessitent un degré élevé de précision et de fiabilité, car les erreurs peuvent entraîner des pertes financières ou des problèmes de réglementation importants. Malgré la promesse des LLM pour gérer de grandes quantités de données financières, nos recherches ont montré que des modèles de pointe comme GPT-4 et Llama 2 ont lutté avec des questions financières, échouant souvent à récupérer des informations exactes.
FinanceBench a été créé comme un benchmark complet pour évaluer les performances des LLM dans des contextes financiers. Il comprend 10 000 paires de questions et de réponses basées sur des documents financiers accessibles au public, couvrant des domaines tels que le raisonnement numérique, la récupération d’informations, le raisonnement logique et les connaissances du monde. En fournissant ce benchmark, nous visons à aider les entreprises à mieux comprendre les limites des modèles actuels et à identifier les domaines d’amélioration.
Notre analyse initiale a révélé que de nombreux LLM échouent à répondre aux normes élevées requises pour les applications financières, soulignant la nécessité d’un affinement et d’une évaluation ciblée. Avec FinanceBench, nous fournissons un outil précieux pour que les entreprises évaluent et améliorent les performances des LLM dans le secteur financier.
Vos recherches ont mis en évidence que les principaux modèles d’IA, en particulier GPT-4 d’OpenAI, génèrent du contenu protégé par le droit d’auteur à des taux importants lorsqu’ils sont sollicités avec des extraits de livres populaires. Quelles sont, selon vous, les implications à long terme de ces constats pour le développement de l’IA et l’industrie technologique dans son ensemble, en particulier compte tenu des débats en cours sur l’IA et le droit d’auteur ?
La question de la génération de contenu protégé par le droit d’auteur par les modèles d’IA est une préoccupation complexe et urgente dans l’industrie de l’IA. Nos recherches ont montré que des modèles comme GPT-4, lorsqu’ils sont sollicités avec des extraits de livres populaires, reproduisent souvent du contenu protégé par le droit d’auteur. Cela soulève des questions importantes sur les droits de propriété intellectuelle et les implications juridiques de l’utilisation de contenu généré par l’IA.
À long terme, ces constats soulignent la nécessité de lignes directrices et de réglementations plus claires autour de l’IA et du droit d’auteur. L’industrie doit travailler à développer des modèles d’IA qui respectent les droits de propriété intellectuelle tout en maintenant leurs capacités créatives. Cela pourrait impliquer l’affinement des ensembles de données de formation pour exclure le contenu protégé par le droit d’auteur ou la mise en œuvre de mécanismes qui détectent et empêchent la reproduction de contenu protégé.
L’industrie technologique dans son ensemble doit engager des discussions continues avec des experts juridiques, des décideurs politiques et des parties prenantes pour établir un cadre qui équilibre l’innovation et le respect des lois existantes. À mesure que l’IA continue d’évoluer, il est crucial de répondre à ces défis de manière proactive pour assurer un développement d’IA responsable et éthique.
Compte tenu du taux alarmant auquel les LLM de pointe reproduisent du contenu protégé par le droit d’auteur, comme le montre votre étude, quels sont les mesures que vous pensez que les développeurs d’IA et l’industrie dans son ensemble doivent prendre pour répondre à ces préoccupations ? De plus, comment Patronus AI prévoit-il de contribuer à la création de modèles d’IA plus responsables et conformes au droit dans la lumière de ces constats ?
Répondre à la question de la reproduction de contenu protégé par le droit d’auteur par les modèles d’IA nécessite une approche multiforme. Les développeurs d’IA et l’industrie dans son ensemble doivent donner la priorité à la transparence et à la responsabilité dans le développement des modèles d’IA. Cela implique :
- Amélioration de la sélection des données : Assurer que les ensembles de données de formation sont soigneusement sélectionnés pour éviter le contenu protégé par le droit d’auteur, à moins que les licences appropriées ne soient obtenues.
- Développement de mécanismes de détection : Mettre en œuvre des systèmes qui peuvent identifier lorsqu’un modèle d’IA génère du contenu potentiellement protégé par le droit d’auteur et fournir aux utilisateurs des options pour modifier ou supprimer un tel contenu.
- Établissement de normes industrielles : Collaborer avec des experts juridiques et des parties prenantes de l’industrie pour créer des lignes directrices et des normes pour le développement d’IA qui respectent les droits de propriété intellectuelle.
Chez Patronus AI, nous nous engageons à contribuer au développement responsable d’IA en nous concentrant sur l’évaluation et la conformité. Notre plateforme comprend des produits comme EnterprisePII, qui aident les entreprises à détecter et à gérer les problèmes potentiels de confidentialité dans les sorties d’IA. En fournissant ces solutions, nous visons à habiliter les entreprises à utiliser l’IA de manière responsable et éthique tout en minimisant les risques juridiques.
Avec des outils comme EnterprisePII et FinanceBench, quels sont les changements que vous anticipez dans la façon dont les entreprises déployeront l’IA, en particulier dans des domaines sensibles comme la finance et les données personnelles ?
Ces outils fournissent aux entreprises la capacité d’évaluer et de gérer les sorties d’IA de manière plus efficace, en particulier dans des domaines sensibles tels que la finance et les données personnelles.
Dans le secteur financier, FinanceBench permet aux entreprises d’évaluer les performances des LLM avec un degré élevé de précision, garantissant que les modèles répondent aux exigences strictes des applications financières. Cela habilite les entreprises à exploiter l’IA pour des tâches telles que l’analyse de données et la prise de décision avec plus de confiance et de fiabilité.
De même, des outils comme EnterprisePII aident les entreprises à naviguer dans les complexités de la confidentialité des données. En fournissant des informations sur les risques potentiels et en offrant des solutions pour les atténuer, ces outils permettent aux entreprises de déployer l’IA de manière plus sécurisée et responsable.
Dans l’ensemble, ces outils ouvrent la voie à une approche plus éclairée et stratégique de l’adoption de l’IA, aidant les entreprises à tirer parti des avantages de l’IA tout en minimisant les risques associés.
Comment Patronus AI travaille-t-il avec les entreprises pour intégrer ces outils dans leurs déploiements et flux de travail LLM existants ?
Chez Patronus AI, nous comprenons l’importance d’une intégration sans heurts lorsqu’il s’agit de l’adoption de l’IA. Nous travaillons en étroite collaboration avec nos clients pour nous assurer que nos outils sont facilement intégrés dans leurs déploiements et flux de travail LLM existants. Cela inclut de fournir aux clients :
- Plans d’intégration personnalisés : Nous collaborons avec chaque client pour élaborer des plans d’intégration personnalisés qui s’alignent sur leurs besoins et objectifs spécifiques.
- Soutien complet : Notre équipe fournit un soutien continu tout au long du processus d’intégration, offrant des conseils et une assistance pour garantir une transition en douceur.
- Formation et éducation : Nous proposons des sessions de formation et des ressources éducatives pour aider les clients à comprendre pleinement et à utiliser nos outils, les habilitant à tirer le meilleur parti de leurs investissements dans l’IA.
Étant donné la complexité de la garantie que les sorties d’IA sont sécurisées, exactes et conformes à diverses lois, quels conseils offririez-vous aux développeurs de LLM et aux entreprises qui souhaitent les utiliser ?
En donnant la priorité à la collaboration et au soutien, nous visons à rendre le processus d’intégration aussi simple et efficace que possible, permettant aux entreprises de débloquer pleinement le potentiel de nos solutions d’IA.
Les complexités de la garantie que les sorties d’IA sont sécurisées, exactes et conformes à diverses lois présentent des défis importants. Pour les développeurs de grands modèles de langage (LLM), la clé est de donner la priorité à la transparence et à la responsabilité tout au long du processus de développement.
L’un des aspects fondamentaux est la qualité des données. Les développeurs doivent s’assurer que les ensembles de données de formation sont bien curés et libres de contenu protégé par le droit d’auteur, à moins que les licences appropriées ne soient obtenues. Cela aide non seulement à prévenir les problèmes juridiques potentiels mais garantit également que l’IA génère des sorties fiables. De plus, traiter le biais et l’équité est crucial. En travaillant activement pour identifier et atténuer les biais, et en développant des données de formation diverses et représentatives, les développeurs peuvent réduire les biais et garantir des résultats équitables pour tous les utilisateurs.
Des procédures d’évaluation robustes sont essentielles. La mise en œuvre de tests rigoureux et l’utilisation de benchmarks comme FinanceBench peuvent aider à évaluer les performances et la fiabilité des modèles d’IA, garantissant qu’ils répondent aux exigences de cas d’utilisation spécifiques. De plus, les considérations éthiques doivent être au premier plan. S’engager dans des lignes directrices et des cadres éthiques garantit que les systèmes d’IA sont développés de manière responsable et s’alignent sur les valeurs sociétales.
Pour les entreprises qui souhaitent exploiter les LLM, comprendre les capacités de l’IA est crucial. Il est important de fixer des attentes réalistes et de s’assurer que l’IA est utilisée de manière efficace au sein de l’organisation. Une intégration et un soutien sans heurts sont également vitaux. En travaillant avec des partenaires de confiance, les entreprises peuvent intégrer des solutions d’IA dans leurs flux de travail existants et garantir que leurs équipes sont formées et soutenues pour exploiter efficacement l’IA.
La conformité et la sécurité doivent être prioritaires, avec un focus sur l’adhésion aux réglementations et lois de protection des données pertinentes. Des outils comme EnterprisePII peuvent aider à surveiller et à gérer les risques potentiels. La surveillance continue et l’évaluation régulière des performances de l’IA sont également nécessaires pour maintenir l’exactitude et la fiabilité, permettant des ajustements au besoin.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Patronus AI.












