Connect with us

Interviews

Wilson Pang, Co-Auteur van Real World AI – Interview Serie

mm

Wilson Pang sloot zich in november 2018 aan bij Appen als CTO en is verantwoordelijk voor de producten en technologie van het bedrijf. Wilson heeft meer dan negentien jaar ervaring in software-engineering en datawetenschap. Voordat hij bij Appen kwam, was Wilson chief data officer van Ctrip in China, het op een na grootste online reisbureau ter wereld, waar hij data-engineers, analisten, data product managers en wetenschappers leidde om de gebruikerservaring te verbeteren en de operationele efficiëntie te verhogen, waardoor het bedrijf groeide. Daarvoor was hij senior director of engineering bij eBay in Californië en bood hij leiderschap in verschillende domeinen, waaronder data service en oplossingen, zoekwetenschap, marketingtechnologie en factureringssystemen. Hij werkte als architect bij IBM voordat hij bij eBay kwam, waar hij technologieoplossingen bouwde voor verschillende klanten. Wilson behaalde zijn master- en bachelordiploma in elektrotechniek aan de Zhejiang Universiteit in China.

We bespreken zijn nieuwe boek: De echte wereld van AI: een praktische gids voor verantwoordelijke machine learning

U beschrijft hoe, toen u de zoekwetenschapsteams van eBay leidde, een van uw eerste lessen met machine learning was het begrijpen van het belang van het weten welke metrics moeten worden gemeten. Het voorbeeld was hoe de metric “aankopen per sessie” niet rekende met de monetaire waarde van een item. Hoe kunnen bedrijven het beste begrijpen welke metrics moeten worden gemeten om soortgelijke problemen te vermijden?

Begin met de doelen die uw team toeschrijft aan het AI-model – in ons geval wilden we meer omzet genereren met machine learning. Wanneer u metrics koppelt aan de doelen, denk dan na over welke mechanismen die metrics zullen produceren, zodra u het model vrijgeeft en mensen beginnen te interactie met het, maar maak ook een notitie van uw veronderstellingen. In ons geval gingen we ervan uit dat het model zou worden geoptimaliseerd voor omzet, maar het aantal aankopen per sessie vertaalde zich niet naar dat, omdat het model werd geoptimaliseerd voor een hoog aantal lage-waarde verkoop, en aan het eind van de dag maakten we geen meer geld. Zodra we ons dat realiseerden, konden we de metrics veranderen en het model in de juiste richting wijzen. Dus het bepalen van de gedetailleerde metrics, evenals het noteren van veronderstellingen, is cruciaal voor het succes van een project.

Wat hebt u persoonlijk geleerd van het onderzoek en schrijven van dit boek?

We hebben veel verschillende problemen die kunnen worden opgelost door AI van verschillende bedrijven en verschillende industrieën. De use cases kunnen heel verschillend zijn, de AI-oplossing kan verschillend zijn, de data om de AI-oplossing te trainen kan verschillend zijn. Echter, ondanks al deze verschillen, zijn de fouten die mensen maken tijdens hun AI-reis heel erg gelijk. Deze fouten gebeuren keer op keer in alle soorten bedrijven uit alle soorten industrieën.

We delen enkele veelvoorkomende best practices bij het implementeren van AI-projecten met de hoop om meer mensen en bedrijven te helpen om deze fouten te vermijden en hen het vertrouwen te geven om verantwoordelijke AI te implementeren.

Wat zijn enkele van de belangrijkste lessen die u hoopt dat mensen zullen trekken uit het lezen van dit?

We geloven hevig dat zorgvuldige, verantwoordelijke en ethische gebruiken van machine learning-technologie de wereld een rechtvaardiger, eerlijker en inclusievere plek kunnen maken. Machine learning-technologie belooft alles in de zakenwereld te herscheppen, maar het hoeft niet moeilijk te zijn. Er zijn beproefde en geteste methoden en processen die teams kunnen volgen en het vertrouwen krijgen om in productie te implementeren.

Een andere belangrijke les is dat line-of-business-eigenaren (zoals productmanagers) en teamleden aan de meer technische kant (zoals engineers en datawetenschappers) een gemeenschappelijke taal moeten spreken. Om AI succesvol te implementeren, moeten leiders de kloof tussen teams overbruggen, zodat zakenpecialisten en het C-niveau voldoende context krijgen om efficiënt te communiceren met technische implementeerders.

Veel mensen denken eerst aan code wanneer ze aan AI denken. Een van de belangrijkste lessen in het boek is dat data cruciaal is voor het succes van een AI-model. Er is veel dat te maken heeft met data, van verzamelen tot labelen tot opslaan en elke stap zal de succes van het model beïnvloeden. De meest succesvolle AI-implementaties zijn degene die een hoge prioriteit geven aan data en streven naar continue verbetering van dit aspect van hun ML-model.

Alle echte AI vereist is een cross-functioneel team en een innovatieve geest.

Besproken in het boek is de noodzaak om te bepalen wanneer de nauwkeurigheid van een AI-model voldoende is om AI te gebruiken. Wat is de eenvoudigste manier om de soort nauwkeurigheid te beoordelen die nodig is?

Het hangt af van uw use cases en risicotolerantie. Teams die AI ontwikkelen, moeten altijd een testfase hebben waarin ze de nauwkeurigheidsniveaus en acceptabele drempels voor hun organisaties en stakeholders bepalen. Voor levensbedreigende use cases – waarbij er potentieel gevaar is als de AI fout gaat, zoals in het geval van zinvolle software, zelfrijdende auto’s, medische use cases, is de lat heel hoog – en teams moeten voorzorgsmaatregelen nemen in geval van fouten in de modellen. Voor meer fout-tolerante use cases, waarbij er veel subjectiviteit in het spel is – zoals inhoud, zoekopdrachten of advertentierelevantie, kunnen teams vertrouwen op gebruikersfeedback om hun modellen aan te passen, zelfs tijdens productie. Natuurlijk zijn er enkele hoge-risicouse cases hier, waarbij illegale of immorele materialen aan gebruikers kunnen worden getoond, dus moeten voorzorgsmaatregelen en feedbackmechanismen op hun plaats zijn.

Kunt u de belangrijkheid van het definiëren van succes voor een project van tevoren uitleggen?

Het is even belangrijk om te beginnen met een zakenprobleem als om succes van tevoren te definiëren, aangezien deze twee hand in hand gaan. Volg het voorbeeld in het boek over de automotive dealer die AI gebruikt om afbeeldingen te labelen, ze hebben niet bepaald wat succes leek, omdat ze geen zakenprobleem hadden gedefinieerd om op te lossen. Succes voor hen had heel goed een aantal dingen kunnen zijn, wat het moeilijk maakt om een probleem op te lossen, zelfs voor teams van mensen, laat staan een machine learning-model met een vaste reikwijdte. Als ze hadden besloten om alle voertuigen met deuken te labelen om een lijst te maken van voertuigen die reparatie nodig hadden en succes hadden gedefinieerd als het correct labelen van 80% van alle voertuigdeuken in de gebruikte auto-inventaris, dan zouden ze succes hebben genoemd toen ze 85% correct hadden gelabeld. Maar als dat succes niet is gekoppeld aan het zakenprobleem en aan de directe zakenimpact, is het moeilijk om het project te beoordelen buiten de gefocuste definitie van labelnauwkeurigheid in dit voorbeeld. Hier was het zakenprobleem complexer en is het labelen van deuken slechts een onderdeel ervan. In hun geval zouden ze beter hebben gedaan door succes te definiëren als het besparen van tijd/geld op het claimsproces of het optimaliseren van het reparatieproces met X% en vervolgens de impact van het labelen te vertalen in echte zakenresultaten.

Hoe belangrijk is het om ervoor te zorgen dat trainingsdata-forbeelden alle use cases dekken die zullen plaatsvinden in de productie-implementatie?

Het is extreem belangrijk dat het model wordt getraind op alle use cases om bias te vermijden. Maar het is ook belangrijk om op te merken dat, hoewel het onmogelijk is om absoluut alle use cases in productie te dekken, teams die AI bouwen, hun productiedata en trainingsdata moeten begrijpen, zodat ze de AI trainen op wat ze in productie tegenkomen. Toegang tot trainingsdata die afkomstig zijn van grote, diverse groepen met verschillende use cases, zal cruciaal zijn voor het succes van het model. Bijvoorbeeld, een model dat is getraind om de huisdieren van mensen in een geüpload beeld te herkennen, moet worden getraind op alle soorten huisdieren; honden, katten, vogels, kleine zoogdieren, hagedissen, enz. Als het model alleen wordt getraind op honden, katten en vogels, dan zal het model niet in staat zijn om een guineapig te identificeren wanneer iemand een afbeelding uploadt met hun guineapig. Hoewel dit een heel eenvoudig voorbeeld is, laat het zien hoe trainen op zo veel mogelijk waarschijnlijke use cases cruciaal is voor het succes van een model.

Besproken in het boek is de noodzaak om goede datahygiëne-gewoonten te ontwikkelen van bovenaf, wat zijn enkele veelvoorkomende eerste stappen om deze gewoonte te cultiveren?

Goede datahygiëne-gewoonten zullen de bruikbaarheid van interne data verhogen en deze voorbereiden voor ML-use cases. Het hele bedrijf moet goed worden in het organiseren en bijhouden van zijn datasets. Een zekere manier om dit te bereiken, is door het een zakenvereiste te maken en de implementatie bij te houden, zodat er heel weinig rapporten zijn die eindigen als aangepaste klussen, en teams meer en meer werken met datapipelines die worden doorgestuurd naar een centraal repository, met een duidelijke ontologie. Een andere goede praktijk is het bijhouden van een record van wanneer en waar de data werd verzameld en wat er met de data is gebeurd voordat deze in de database werd geplaatst, evenals het instellen van processen voor het schoonmaken van ongebruikte of verouderde data periodiek.

Dank u voor het geweldige interview, voor lezers die geïnteresseerd zijn in het leren van meer, beveel ik aan dat ze het boek De echte wereld van AI: een praktische gids voor verantwoordelijke machine learning lezen.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.