Suivez nous sur

Wilson Pang, co-auteur de Real World AI – Série d'interviews

Interviews

Wilson Pang, co-auteur de Real World AI – Série d'interviews

mm

Wilson Pang a rejoint Appen en novembre 2018 en tant que CTO et est responsable des produits et de la technologie de l'entreprise. Wilson a plus de dix-neuf ans d'expérience en génie logiciel et en science des données. Avant de rejoindre Appen, Wilson était directeur des données de Ctrip en Chine, la deuxième plus grande agence de voyages en ligne au monde, où il dirigeait des ingénieurs de données, des analystes, des responsables de produits de données et des scientifiques pour améliorer l'expérience utilisateur et accroître l'efficacité opérationnelle qui a grandi l'entreprise. Auparavant, il était directeur principal de l'ingénierie chez eBay en Californie et a assuré la direction dans divers domaines, notamment les services et solutions de données, la science de la recherche, la technologie marketing et les systèmes de facturation. Il a travaillé comme architecte chez IBM avant eBay, créant des solutions technologiques pour divers clients. Wilson a obtenu sa maîtrise et son baccalauréat en génie électrique de l'Université du Zhejiang en Chine.

Nous discutons de son nouveau livre: Le monde rĂ©el de l'IA : un guide pratique pour un apprentissage automatique responsable

Vous dĂ©crivez comment, lorsque vous avez dirigĂ© les Ă©quipes scientifiques de recherche d'eBay, l'une de vos premières leçons avec l'apprentissage automatique a Ă©tĂ© de comprendre l'importance de savoir quelles mesures mesurer. L'exemple donnĂ© Ă©tait la façon dont la mĂ©trique "achats par session" ne tenait pas compte de la valeur monĂ©taire d'un article. Comment les entreprises peuvent-elles mieux comprendre quelles mesures doivent ĂŞtre mesurĂ©es pour Ă©viter des problèmes similaires ?

Commencez par les objectifs que votre équipe attribue au modèle d'IA. Dans notre cas, nous voulions générer plus de revenus grâce à l'apprentissage automatique. Lorsque vous attachez des métriques aux objectifs, réfléchissez à la mécanique que ces métriques produiront une fois que vous aurez publié le modèle et que les gens commenceront à interagir avec lui, mais notez également vos hypothèses. Dans notre cas, nous avons supposé que le modèle optimiserait les revenus, mais le nombre d'achats par session ne s'est pas traduit par cela, car le modèle optimisait pour un nombre élevé de ventes à faible valeur et, en fin de compte, nous n'étions pas ne gagne pas plus d'argent. Une fois que nous avons réalisé cela, nous avons pu modifier les métriques et orienter le modèle dans la bonne direction. Ainsi, la détermination des métriques granulaires, ainsi que la notation des hypothèses sont essentielles au succès d'un projet.

Qu'avez-vous personnellement appris en faisant des recherches et en Ă©crivant ce livre ?

Nous avons beaucoup de problèmes différents qui peuvent être résolus par l'IA de différentes entreprises et de différentes industries. Les cas d'utilisation peuvent être très différents, la solution d'IA peut être différente, les données pour former cette solution d'IA peuvent être différentes. Cependant, malgré toutes ces différences, les erreurs commises par les gens au cours de leur parcours en IA sont assez similaires. Ces erreurs se sont produites encore et encore dans toutes sortes d'entreprises de toutes sortes d'industries.

Nous avons partagé quelques bonnes pratiques communes lors de la mise en œuvre de projets d'IA dans l'espoir d'aider davantage de personnes et d'entreprises à éviter ces erreurs et à leur donner la confiance nécessaire pour déployer une IA responsable.

Quelles sont certaines des leçons les plus importantes que vous espĂ©rez que les gens tireront de cette lecture ?

Nous croyons fermement que des utilisations réfléchies, responsables et éthiques de la technologie d'apprentissage automatique peuvent faire du monde un endroit plus juste, équitable et inclusif. La technologie d'apprentissage automatique promet de tout remodeler dans le monde des affaires, mais cela n'a pas à être difficile. Il existe des méthodes et des processus éprouvés que les équipes peuvent suivre et obtenir la confiance nécessaire pour déployer en production.

Une autre leçon clé est que les propriétaires de secteurs d'activité (comme les chefs de produit) et les membres de l'équipe du côté plus technique (comme les ingénieurs et les scientifiques des données) doivent parler un langage commun. Pour déployer avec succès l'IA, les dirigeants doivent combler le fossé entre les équipes, en fournissant aux spécialistes métier et au niveau C suffisamment de contexte pour converser efficacement avec les implémenteurs techniques.

Beaucoup de gens pensent d'abord au code lorsqu'ils pensent à l'IA. L'une des principales leçons du livre est que les données sont essentielles au succès d'un modèle d'IA. Il y a beaucoup de choses qui vont avec les données, de la collecte à l'étiquetage en passant par le stockage et chaque étape influencera le succès du modèle. Les déploiements d'IA les plus réussis sont ceux qui accordent une grande importance aux données et s'efforcent d'améliorer en permanence cet aspect de leur modèle ML.

Tout ce dont l'IA du monde réel a besoin, c'est d'une équipe interfonctionnelle et d'un esprit d'innovation.

Il s'agit de dĂ©terminer quand la prĂ©cision d'un modèle d'IA est suffisamment Ă©levĂ©e pour prendre en charge l'utilisation de l'IA. Quel est le moyen le plus simple d'Ă©valuer le type de prĂ©cision nĂ©cessaire ?

Cela dĂ©pend de vos cas d'utilisation et de votre tolĂ©rance au risque. Les Ă©quipes qui dĂ©veloppent l'IA doivent toujours avoir une phase de test oĂą elles dĂ©terminent les niveaux de prĂ©cision et les seuils acceptables pour leurs organisations et leurs parties prenantes. Pour les cas d'utilisation de vie ou de mort - oĂą il y a un prĂ©judice potentiel si l'IA tourne mal, comme dans le cas des logiciels de dĂ©termination de la peine, des voitures autonomes, des cas d'utilisation mĂ©dicale, la barre est très, très haute - et les Ă©quipes doivent mettre en place placer des contingences au cas oĂą les modèles seraient erronĂ©s. Pour les cas d'utilisation plus tolĂ©rants aux pannes, oĂą il y a beaucoup de subjectivitĂ© en jeu - comme le contenu, la recherche ou la pertinence des annonces, les Ă©quipes peuvent compter sur les commentaires des utilisateurs pour continuer Ă  ajuster leurs modèles mĂŞme en cours de production. Bien sĂ»r, il existe ici aussi des cas d'utilisation Ă  haut risque, oĂą du matĂ©riel illĂ©gal ou immoral pourrait ĂŞtre montrĂ© aux utilisateurs, donc des garanties et des mĂ©canismes de rĂ©troaction doivent ĂŞtre en place ici aussi. 

Pouvez-vous dĂ©finir l'importance de dĂ©finir le succès d'un projet dès le dĂ©part ? 

Il est tout aussi important de commencer par un problème commercial que de dĂ©finir le succès dès le dĂ©part, car les deux vont de pair. Suivant l'exemple du livre sur le concessionnaire automobile utilisant l'IA pour Ă©tiqueter les images, ils n'ont pas dĂ©terminĂ© Ă  quoi ressemblait le succès car ils n'avaient pas dĂ©fini de problème commercial Ă  rĂ©soudre. Pour eux, le succès aurait pu ĂŞtre un certain nombre de choses diffĂ©rentes, ce qui rend difficile la rĂ©solution d'un problème, mĂŞme pour des Ă©quipes de personnes, sans parler d'un modèle d'apprentissage automatique avec une portĂ©e fixe. S'ils avaient dĂ©cidĂ© d'Ă©tiqueter tous les vĂ©hicules avec des bosses pour crĂ©er une liste de vĂ©hicules nĂ©cessitant une rĂ©paration et dĂ©fini le succès comme Ă©tiquetant avec prĂ©cision 80 % de toutes les bosses de vĂ©hicules dans l'inventaire des voitures d'occasion, alors quand ils auraient Ă©tiquetĂ© avec prĂ©cision 85 %, l'Ă©quipe l'aurait appelĂ© un succès. Mais si ce succès n'est pas liĂ© au problème commercial et Ă  l'impact commercial direct, il est difficile d'Ă©valuer le projet en dehors de la dĂ©finition ciblĂ©e de la prĂ©cision de l'Ă©tiquetage dans cet exemple. Ici, le problème commercial Ă©tait plus complexe et l'Ă©tiquetage des bosses n'en est qu'un Ă©lĂ©ment. Dans leur cas, ils auraient pu faire mieux en dĂ©finissant le succès comme un gain de temps/d'argent sur le processus de rĂ©clamation ou en optimisant le processus de rĂ©paration de X %, puis en traduisant l'impact de l'Ă©tiquetage en rĂ©sultats commerciaux rĂ©els.

Dans quelle mesure est-il important de s'assurer que les exemples de donnĂ©es de formation couvrent tous les cas d'utilisation qui se produiront lors du dĂ©ploiement en production ?

Il est extrĂŞmement important que le modèle soit formĂ© sur tous les cas d'utilisation pour Ă©viter les biais. Mais il est Ă©galement important de noter que, s'il est impossible de couvrir absolument tous les cas d'utilisation en production, les Ă©quipes qui construisent l'IA doivent comprendre leurs donnĂ©es de production, ainsi que leurs donnĂ©es de formation afin de former l'IA Ă  ce qu'elle rencontrera en production. . L'accès aux donnĂ©es de formation provenant de grands groupes diversifiĂ©s avec divers cas d'utilisation sera essentiel au succès du modèle. Par exemple, un modèle qui est formĂ© pour reconnaĂ®tre l'animal de compagnie des gens dans une image tĂ©lĂ©chargĂ©e doit ĂŞtre formĂ© sur tous les types d'animaux de compagnie ; chiens, chats, oiseaux, petits mammifères, lĂ©zards, etc. Si le modèle ne s'entraĂ®ne que sur des chiens, des chats et des oiseaux, lorsque quelqu'un tĂ©lĂ©charge une image avec son cochon d'Inde, le modèle ne pourra pas l'identifier. Bien qu'il s'agisse d'un exemple très simple, il montre Ă  quel point la formation sur autant de cas d'utilisation probables que possible est essentielle au succès d'un modèle.

Le livre traite de la nĂ©cessitĂ© de dĂ©velopper de bonnes habitudes d'hygiène des donnĂ©es de haut en bas. Quelles sont les premières Ă©tapes courantes pour entretenir cette habitude ?

De bonnes habitudes d'hygiène des données augmenteront la convivialité des données internes et les prépareront pour les cas d'utilisation de ML. L'ensemble de l'entreprise doit maîtriser l'organisation et le suivi de ses ensembles de données. Un moyen sûr d'y parvenir est d'en faire une exigence métier et de suivre la mise en œuvre afin qu'il y ait très peu de rapports qui finissent par être des tâches personnalisées, et les équipes travaillent de plus en plus avec des pipelines de données canalisés vers un référentiel central, avec une ontologie claire. Une autre bonne pratique consiste à conserver une trace du moment et de l'endroit où les données ont été collectées et de ce qui s'est passé avant qu'elles ne soient placées dans la base de données, ainsi qu'à établir des processus pour nettoyer périodiquement les données inutilisées ou obsolètes.

Merci pour la grande interview, pour les lecteurs qui souhaitent en savoir plus, je leur recommande de lire le livre Le monde rĂ©el de l'IA : un guide pratique pour un apprentissage automatique responsable.

Antoine est un leader visionnaire et partenaire fondateur d'Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de s'extasier sur le potentiel des technologies disruptives et de l'AGI.

En futuriste, il se consacre à l'exploration de la manière dont ces innovations façonneront notre monde. En outre, il est le fondateur de Titres.io, une plateforme axée sur l’investissement dans les technologies de pointe qui redéfinissent l’avenir et remodèlent des secteurs entiers.