Entretiens
Chester Leung, Co-Fondateur et Responsable de la Plateforme d’Intelligence Artificielle chez OPAQUE – Série d’Entretiens

Chester Leung est Co-Fondateur et Responsable de l’Architecture de la Plateforme chez OPAQUE, une startup en série A qui crée la plateforme de données confidentielles et d’intelligence artificielle qui permet aux équipes d’étendre leurs pipelines de données d’entreprise avec une couche confidentielle, permettant ainsi des insights plus rapides avec moins d’efforts et une confidentialité et un contrôle vérifiables.
Auparavant, Chester était un étudiant en informatique à l’Université de Californie à Berkeley, où il a publié des articles examinés par des pairs dans des conférences de premier plan et a également servi en tant que responsable principal du projet open-source MC2 pour l’analyse et l’apprentissage automatique collaboratifs sécurisés.
Vous avez co-fondé Opaque après votre passage au RISELab de l’UC Berkeley, où votre travail a combiné l’intelligence artificielle et les systèmes sécurisés. Quelle faille spécifique dans l’infrastructure de données d’entreprise avez-vous constatée, ce qui a conduit à la création d’OPAQUE, et comment votre expérience académique a-t-elle informé la direction de l’entreprise ?
À l’époque, il y avait un immense intérêt, à la fois dans le monde universitaire et dans l’industrie, pour utiliser l’apprentissage automatique pour des cas d’utilisation spécifiques. Dans le laboratoire, nous avons eu l’occasion de travailler étroitement avec des entreprises de technologie et de services financiers, en collaboration pour résoudre des problèmes de confidentialité difficiles liés à l’utilisation de données sensibles mais précieuses pour l’apprentissage automatique. Comme tous les domaines de l’intelligence artificielle, l’apprentissage automatique repose sur de grandes quantités de données de haute qualité pour produire des insights précieux et robustes.
Nous sommes tombés sur le même modèle encore et encore en collaborant avec des équipes de la part de sociétés comme Amazon, Scotiabank et Ant Group (alors Ant Financial) : leurs projets alimentés par l’apprentissage automatique ont été interrompus avant d’atteindre la production en raison de préoccupations concernant l’utilisation de données sensibles mais critiques pour ces cas d’utilisation. En d’autres termes, ces équipes n’ont pas pu utiliser l’intelligence artificielle dans des projets qu’elles savaient pouvoir générer de la valeur pour l’entreprise, non pas en raison d’un problème technique avec l’intelligence artificielle, mais parce qu’elles n’ont pas pu accéder aux bonnes données.
Chez Opaque, nous résolvons un problème identique. Nous aidons les équipes à accéder aux bonnes données, leur permettant de débloquer ou de mettre à niveau leurs capacités d’intelligence artificielle. La seule différence depuis nos jours de recherche est l’urgence du problème : nous voyons maintenant de manière constante l’adoption et l’intégration de l’intelligence artificielle, qui continue d’être un impératif stratégique pour l’entreprise, être bloquée par l’accès aux bonnes données.
Dans un paysage où les entreprises investissent massivement dans les modèles de raisonnement et l’intelligence artificielle agente, pourquoi pensez-vous que les pipelines de données sécurisés sont plus importants que jamais ?
Les pipelines de données sécurisés sont la colonne vertébrale sur laquelle les entreprises construisent les modèles de raisonnement et l’intelligence artificielle agente. Tout, de la formation de ces modèles de raisonnement à la mise en œuvre de l’intelligence artificielle agente, implique des données sensibles et repose sur des pipelines de données sécurisés.
Par exemple, nous voyons maintenant, en tant qu’industrie, un investissement croissant dans la génération de données de haute qualité pour former ces modèles. Certains rapports ont même prédit que l’investissement dans la génération de données de haute qualité sera bientôt plus important que l’investissement dans la formation des modèles eux-mêmes. Bien sûr, la génération de données est un processus multétape alimenté par des pipelines qui produisent le bien le plus précieux d’une entreprise : des données de haute qualité et spécifiques au domaine qui peuvent former des modèles qui génèrent une valeur immense en aval. L’investissement dans la génération de ces données est énorme, et les données générées, compte tenu de leur lignée, distinguent effectivement une entreprise de ses concurrents, servant de fossé. Une entreprise doit tout faire pour garder ce pipeline sécurisé.
La plateforme de calcul confidentiel d’OPAQUE permet des analyses sur des données chiffrées. Quels sont les défis techniques fondamentaux pour rendre cela à la fois évolutif et convivial pour les environnements d’entreprise ?
<p Notre plateforme d'intelligence artificielle confidentielle permet non seulement des analyses, de l'apprentissage automatique et de l'intelligence artificielle générative sur des données chiffrées, mais fournit également une preuve vérifiable que vos données ont été utilisées de la manière que vous attendiez et autorisiez.
Les défis fondamentaux, en termes d’évolutivité, de développement et de gestion, résident dans la mise en œuvre sécurisée et vérifiable de la charge de travail à grande échelle. En particulier, de nombreuses entreprises utilisent aujourd’hui des services cloud gérés lorsqu’elles ont besoin de mettre à l’échelle. Cela peut être à la fois rentable et pratique. Cependant, un sous-ensemble du logiciel alimentant les services cloud gérés est inhérentement géré par le fournisseur de cloud. Le défi devient donc : comment une organisation peut-elle sécuriser et vérifier un logiciel qui n’est pas sous son contrôle ? Si l’organisation reprend le contrôle de tout le logiciel, ce qu’elle doit abandonner en n’utilisant pas un service géré, et ce qu’elle perd en le faisant ?
Vous avez déclaré qu’une architecture sécurisée par conception peut offrir un avantage concurrentiel durable. Pouvez-vous expliquer comment ce principe se concrétise pratiquement pour les équipes d’intelligence artificielle d’entreprise ?
Il y a deux angles à considérer : un angle produit et un angle ingénierie.
D’un point de vue produit, tout le monde comprend que ses données sont radioactives, son fossé ou les deux. Les entreprises deviennent de plus en plus matures dans leur évaluation de la confidentialité des données, de la sécurité et de la souveraineté des solutions. Par conséquent, toute équipe qui construit un produit qui traite des données d’entreprise doit fournir des garanties que les données traitées ne sont visibles et utilisées que par des parties et des entités autorisées. Une architecture sécurisée par conception offre la confiance que la confidentialité des données, la sécurité et la souveraineté ont été des considérations de premier plan dans la conception du produit et permettent au produit de fournir explicitement ces garanties.
D’un point de vue ingénierie, une architecture sécurisée par conception est plus extensible et plus solide. Les équipes juridiques, de risques et de conformité deviennent de plus en plus strictes en réponse à de nouveaux risques et réglementations. Ainsi, les organisations d’ingénierie devraient vouloir construire un système d’intelligence artificielle d’entreprise sécurisé dès le départ, afin de ne pas avoir à le réarchitecturer et/ou le rafistoler une fois qu’elles réalisent que leur système existant est insuffisamment sécurisé et à risque. Devoir réarchitecturer et rafistoler coûte des mois, voire des années, de bande passante d’ingénierie précieuse.
À mesure que les systèmes d’intelligence artificielle autonomes évoluent, comment les organisations devraient-elles repenser le rôle des données – au-delà d’une ressource – en tant que fossé défendable ?
Il y a un consensus croissant dans l’industrie selon lequel les données pourraient bientôt être le seul fossé dont dispose une organisation. Nous voyons de la recherche et de l’ingénierie, ainsi que les technologies et les produits brillants qu’ils construisent, passer d’une organisation à l’autre.
Ce qui ne peut pas facilement être transféré d’une organisation à l’autre, cependant, ce sont les données d’une organisation – à moins qu’elles ne soient divulguées. De plus, ce sont exactement ces données qui peuvent rendre un produit plus attrayant que ses concurrents – plus personnalisé, adapté et spécifique au domaine. Les organisations doivent tout faire pour sécuriser leurs données, leur permettant de les utiliser comme l‘avantage concurrentiel.
Quelle est la définition d’un pipeline d’intelligence artificielle résilient en pratique, et comment aide-t-il les entreprises à éviter les coûts ou les risques cachés lorsqu’elles mettent à l’échelle leurs déploiements d’intelligence artificielle ?
Un pipeline d’intelligence artificielle résilient est celui qui est fiable, tolérant aux pannes, mais surtout, sécurisé de manière vérifiable de bout en bout. Avant le traitement, les entreprises devraient vérifier à la fois les données qui entrent dans le pipeline et le pipeline lui-même, pour s’assurer qu’il n’y a pas de possibilité que le pipeline abuse des données. Pendant le traitement, le pipeline d’intelligence artificielle devrait être à l’épreuve des tampons, pour s’assurer qu’il n’est pas possible de voler des données qu’il traite ou de fausser les insights qu’il fournit. Après le traitement, le pipeline d’intelligence artificielle devrait être vérifiable, pour que l’équipe puisse observer et expliquer la prise de décision et la trajectoire du pipeline d’intelligence artificielle, et pour que l’équipe puisse voir ce qui s’est passé lorsque quelque chose se passe mal.
De nombreuses entreprises se concentrent sur la précision du modèle ou la latence. Qu’est-ce qu’elles négligent lorsqu’il s’agit de l’intégrité des données et des risques opérationnels à long terme ?
Alors que de nombreuses entreprises se concentrent sur le modèle ou la technologie d’intelligence artificielle, j’ai toujours cru que les données constituent l’obstacle fondamental à la mise en œuvre d’une intelligence artificielle génératrice de valeur.
Avoir un modèle qui génère rapidement une réponse précise sur un sujet que l’utilisateur final ne se soucie pas génère zero valeur. Pour construire un produit unique et attrayant, les entreprises doivent s’assurer que leurs modèles, et les produits qu’ils alimentent, sont formés avec des données de haute qualité et pertinentes. Les problèmes d’hygiène des données qui résultent d’un manque de données d’entrée de haute qualité peuvent ne pas apparaître jusqu’à des mois plus tard.
Deuxièmement, nous avons constaté que les entreprises n’ont généralement pas d’histoire solide pour détecter le dérive des données, la contamination ou les fuites, mettant en péril l’intégrité du modèle. Cela est étroitement lié à mon premier point, et bien que cela soit plus une solution réactive, cela rend les évaluations et l’observabilité encore plus importantes.
OPAQUE s’intègre dans les piles cloud existantes. Qu’est-ce que vous avez appris sur l’équilibre entre la facilité d’adoption et les garanties de sécurité solides dans les déploiements d’entreprise ?
Nous avons passé près d’une décennie, à partir de nos jours de recherche, à résoudre ce problème. La sécurité prouvable des systèmes d’intelligence artificielle, en particulier dans un environnement d’entreprise, est un problème très difficile. Cela nécessite des compétences en systèmes, en sécurité, en cryptographie et en intelligence artificielle. Par conséquent, la plupart des systèmes que nous avons rencontrés n’ont pas été fondamentalement sécurisés – car la sécurité est si difficile à mettre en œuvre.
Chez Opaque, nous avons construit un produit qui est le meilleur des deux mondes – inhérentement et vérifiablement sécurisé dès le départ, mais facile à déployer via les places de marché cloud et suffisamment flexible pour s’intégrer dans de nouvelles et existantes applications d’intelligence artificielle.
Quels types de menaces ou de vulnérabilités émergent autour des pipelines d’intelligence artificielle et du partage de données que les dirigeants d’entreprise pourraient ne pas encore pleinement apprécier ?
Ce que nous voyons dans cette ruée vers l’or de l’intelligence artificielle agente est une urgence aveugle à déployer des agents d’intelligence artificielle qui interagissent avec divers systèmes d’enregistrement. Bien que ces agents puissent fournir de la valeur, ils posent également d’énormes risques car ils touchent de nombreux systèmes avec des données précieuses. Les agents sont inhérentement non déterministes, et nous avons vu de nombreux cas où ils vont faire quelque chose que nous n’attendons pas. Dans un monde où vos données sont votre seul fossé, les dirigeants d’entreprise devraient toujours se demander s’ils peuvent faire confiance et compter sur des agents d’intelligence artificielle qui ont accès à toutes leurs données pour ne pas abuser ou intentionnellement abuser de ces données.
À mesure que la réglementation de l’intelligence artificielle prend forme dans le monde, comment voyez-vous l’interaction entre l’infrastructure de données sécurisée, la responsabilité des modèles et la conformité évoluer dans les prochaines années ?
Une infrastructure de données sécurisée vérifiable permet la responsabilité des modèles et des agents. Plus précisément, sans preuve vérifiable de la prise de décision ou de l’utilisation d’outils par un agent ou un modèle, nous ne pouvons pas être certains de quoi que ce soit, nous ne pouvons donc pas retracer la responsabilité. À mesure que l’intelligence artificielle est de plus en plus intégrée dans notre vie quotidienne, nous voulons plus d’explicabilité et d’observabilité dans l’intelligence artificielle. Cependant, lorsque l’intelligence artificielle peut fonctionner à une vitesse de machine, et que nous ne pouvons pas, un intelligence artificielle malveillante peut facilement nous tromper en construisant de fausses histoires. Nous avons besoin de vérifiabilité pour tenir l’intelligence artificielle responsable.
À mes yeux, la conformité réglementaire est très réactive. Le développement et l’adoption des réglementations se déplacent beaucoup plus lentement que l’innovation technologique. Cela sera de plus en plus vrai à mesure que l’intelligence artificielle nous aidera à accélérer notre rythme d’innovation. Même si la conformité finira par inciter les retardataires à adopter une infrastructure de données sécurisée, les premiers adoptants et la majorité précoce reconnaissent qu’il s’agit d’un élément critique pour la sécurité de l’intelligence artificielle, et l’adopteront bien avant que la conformité ne la rende obligatoire. Ils comprennent que la responsabilité des agents, rendue possible par une infrastructure de données sécurisée, est critique pour l’adoption de leurs propres produits alimentés par l’intelligence artificielle.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter OPAQUE.












