Connect with us

Wilson Pang, co-auteur de Real World AI – Série d’entretiens

Entretiens

Wilson Pang, co-auteur de Real World AI – Série d’entretiens

mm

Wilson Pang a rejoint Appen en novembre 2018 en tant que directeur technique et est responsable des produits et de la technologie de l’entreprise. Wilson a plus de dix-neuf ans d’expérience dans l’ingénierie logicielle et la science des données. Avant de rejoindre Appen, Wilson était directeur des données de Ctrip en Chine, la deuxième plus grande entreprise d’agence de voyages en ligne au monde, où il a dirigé les ingénieurs de données, les analystes, les responsables de produits de données et les scientifiques pour améliorer l’expérience utilisateur et augmenter l’efficacité opérationnelle qui a fait croître l’entreprise. Auparavant, il était directeur principal de l’ingénierie chez eBay en Californie et a fourni un leadership dans divers domaines, notamment les services et solutions de données, la science de la recherche, la technologie marketing et les systèmes de facturation. Il a travaillé en tant qu’architecte chez IBM avant eBay, en construisant des solutions technologiques pour divers clients. Wilson a obtenu ses diplômes de master et de licence en ingénierie électrique de l’Université de Zhejiang en Chine.

Nous discutons de son nouveau livre : Le monde réel de l’IA : Un guide pratique pour l’apprentissage automatique responsable

Vous décrivez comment, lorsque vous avez dirigé les équipes de science de la recherche d’eBay, l’une de vos premières leçons avec l’apprentissage automatique était de comprendre l’importance de savoir quels indicateurs de mesure utiliser. L’exemple donné était comment l’indicateur « achats par session » n’a pas tenu compte de la valeur monétaire d’un article. Comment les entreprises peuvent-elles mieux comprendre quels indicateurs de mesure doivent être utilisés pour éviter des problèmes similaires ?

Commencez par les objectifs que votre équipe attribue au modèle d’IA – dans notre cas, nous voulions augmenter les revenus avec l’apprentissage automatique. Lorsque vous attachez des indicateurs de mesure aux objectifs, pensez à quelle mécanique ces indicateurs de mesure produiront, une fois le modèle publié et que les gens commencent à interagir avec lui, mais notez également vos hypothèses. Dans notre cas, nous avons supposé que le modèle allait optimiser les revenus, mais le nombre d’achats par session ne se traduisait pas par cela, car le modèle était optimisé pour un grand nombre de ventes à faible valeur, et à la fin de la journée, nous n’avions pas gagné plus d’argent. Une fois que nous nous sommes rendu compte de cela, nous avons pu modifier les indicateurs de mesure et orienter le modèle dans la bonne direction. Ainsi, la détermination des indicateurs de mesure granulaires, ainsi que la notation des hypothèses, est cruciale pour la réussite d’un projet.

Qu’avez-vous personnellement appris en recherchant et en écrivant ce livre ?

Nous avons de nombreux problèmes différents qui peuvent être résolus par l’IA à partir de différentes entreprises et de différents secteurs. Les cas d’utilisation peuvent être très différents, la solution d’IA peut être différente, les données pour former cette solution d’IA peuvent être différentes. Cependant, malgré toutes ces différences, les erreurs que les gens ont commises lors de leur parcours d’IA sont assez similaires. Ces erreurs se sont produites à nouveau et à nouveau dans toutes sortes d’entreprises de tous les secteurs.

Nous avons partagé certaines meilleures pratiques communes lors de la mise en œuvre de projets d’IA avec l’espoir d’aider plus de personnes et d’entreprises à éviter ces erreurs et à leur donner la confiance pour déployer une IA responsable.

Quelles sont les leçons les plus importantes que vous espérez que les gens tireront de la lecture de ce livre ?

Nous croyons fermement que les utilisations réfléchies, responsables et éthiques de la technologie d’apprentissage automatique peuvent rendre le monde plus juste, plus équitable et plus inclusif. La technologie d’apprentissage automatique promet de restructurer tout dans le monde des entreprises, mais cela n’a pas à être difficile. Il existe des méthodes et des processus éprouvés que les équipes peuvent suivre et acquérir la confiance pour déployer en production.

Une autre leçon clé est que les propriétaires de lignes d’activité (comme les responsables de produits) et les membres de l’équipe du côté technique (comme les ingénieurs et les scientifiques de données) ont besoin de parler un langage commun. Pour déployer avec succès l’IA, les dirigeants doivent combler le fossé entre les équipes, en fournissant aux spécialistes commerciaux et au niveau C suffisamment de contexte pour converser efficacement avec les implementateurs techniques.

Beaucoup de gens pensent d’abord au code lorsqu’ils pensent à l’IA. L’une des leçons clés du livre est que les données sont cruciales pour la réussite d’un modèle d’IA. Il y a beaucoup de choses qui se passent avec les données, de la collecte à l’étiquetage, au stockage et à chaque étape qui influencera la réussite du modèle. Les déploiements d’IA les plus réussis sont ceux qui mettent l’accent sur les données et s’efforcent de continuellement améliorer cet aspect de leur modèle d’IA.

Tout ce dont l’IA du monde réel a besoin est d’une équipe multifonctionnelle et d’un esprit innovant.

Il est question de déterminer quand un modèle d’IA a une précision suffisamment élevée pour soutenir l’utilisation de l’IA. Quelle est la façon la plus simple d’évaluer le type de précision nécessaire ?

Cela dépend de vos cas d’utilisation et de votre tolérance aux risques. Les équipes qui développent l’IA devraient toujours avoir une phase de test où elles déterminent les niveaux de précision et les seuils acceptables pour leur organisation et leurs parties prenantes. Pour les cas d’utilisation où la vie ou la mort est en jeu – où il y a un risque de préjudice si l’IA se trompe, comme dans le cas de logiciels de condamnation, de voitures autonomes, de cas d’utilisation médicaux, la barre est très, très élevée – et les équipes doivent mettre en place des mesures de sauvegarde en cas d’erreur du modèle. Pour les cas d’utilisation plus tolérants aux erreurs, où il y a beaucoup de subjectivité en jeu – comme la pertinence du contenu, de la recherche ou de la publicité, les équipes peuvent s’appuyer sur les commentaires des utilisateurs pour continuer à ajuster leurs modèles même en production. Bien sûr, il y a certains cas d’utilisation à haut risque ici, où des matériaux illégaux ou immoraux pourraient être montrés aux utilisateurs, donc des mesures de sauvegarde et des mécanismes de commentaires doivent être en place ici aussi.

Pouvez-vous définir l’importance de définir le succès d’un projet dès le départ ?

C’est tout aussi important de commencer par un problème commercial que de définir le succès dès le départ, car les deux vont de pair. En suivant l’exemple du livre sur le concessionnaire automobile qui utilise l’IA pour étiqueter des images, ils n’ont pas déterminé à quoi ressemblait le succès, car ils n’avaient pas défini de problème commercial à résoudre. Le succès pour eux aurait pu être une multitude de choses différentes, ce qui rend difficile la résolution d’un problème, même pour des équipes de personnes, et encore moins pour un modèle d’apprentissage automatique avec une portée fixe. S’ils avaient défini le succès comme l’étiquetage précis de 80 % de toutes les bosses de véhicules dans l’inventaire de voitures d’occasion, alors lorsqu’ils auraient étiqueté avec précision 85 %, l’équipe aurait considéré cela comme un succès. Mais si ce succès n’est pas lié au problème commercial, et à l’impact commercial direct, il est difficile d’évaluer le projet en dehors de la définition ciblée de l’exactitude d’étiquetage dans cet exemple. Ici, le problème commercial était plus complexe, et l’étiquetage des bosses n’est qu’un composant de celui-ci. Dans leur cas, ils auraient pu mieux faire en définissant le succès comme la sauvegarde de temps et d’argent sur le processus de réclamation ou l’optimisation du processus de réparation de X % et puis traduire l’impact d’étiquetage en résultats commerciaux réels.

Combien est-il important de s’assurer que les exemples de données d’entraînement couvrent tous les cas d’utilisation qui se produiront lors du déploiement en production ?

Il est extrêmement important que le modèle soit formé sur tous les cas d’utilisation pour éviter les biais. Mais il est également important de noter que, même si il est impossible de couvrir absolument tous les cas d’utilisation en production, les équipes qui construisent l’IA ont besoin de comprendre leurs données de production, ainsi que leurs données d’entraînement, afin de former l’IA à ce qu’elle rencontrera en production. L’accès à des données d’entraînement provenant de grands groupes diversifiés avec divers cas d’utilisation sera crucial pour la réussite du modèle. Par exemple, un modèle formé pour reconnaître les animaux de compagnie des gens dans une image téléchargée doit être formé sur tous les types d’animaux de compagnie ; chiens, chats, oiseaux, petits mammifères, lézards, etc. Si le modèle n’est formé qu’à partir de chiens, de chats et d’oiseaux, alors lorsqu’une personne télécharge une image avec son cobaye, le modèle ne pourra pas l’identifier. Même si c’est un exemple très simple, cela montre à quel point il est crucial de former sur autant de cas d’utilisation probables que possible pour la réussite d’un modèle.

Il est question dans le livre de la nécessité de développer de bonnes habitudes d’hygiène des données de haut en bas, quels sont les premiers pas pour cultiver cette habitude ?

De bonnes habitudes d’hygiène des données augmenteront l’utilité des données internes et les prépareront pour les cas d’utilisation de l’IA. L’ensemble de l’entreprise doit devenir compétent dans l’organisation et le suivi de ses ensembles de données. Une façon sûre de réaliser cela est de le rendre une exigence commerciale et de suivre la mise en œuvre afin qu’il y ait très peu de rapports qui se terminent par des travaux personnalisés, et que les équipes travaillent de plus en plus avec des pipelines de données acheminés vers un référentiel central, avec une ontologie claire. Une autre bonne pratique est de conserver un enregistrement de quand et où les données ont été collectées et ce qui leur est arrivé avant d’être placées dans la base de données, ainsi que d’établir des processus pour nettoyer les données inutilisées ou obsolètes périodiquement.

Merci pour cette grande entrevue, pour les lecteurs qui souhaitent en savoir plus, je vous recommande de lire le livre Le monde réel de l’IA : Un guide pratique pour l’apprentissage automatique responsable.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.