Interviews
Phil Hall, Chief Growth Officer hos LXT – Interviewserie

LXT’s Chief Growth Officer Phil Hall er en tidligere Appen-uddannet og Forbes Technology Council medlem. I hans ledelsesrolle hos Appen ledede han en afdeling på over 1.000 medarbejdere og spillede en nøglerolle i at opnå 17 år i træk med revenuevækst med konsekvent stærk rentabilitet. I hans nuværende rolle hos LXT arbejder han med et håndplukket hold af eksperter for at opnå ambitiøse vækst mål.
LXT er en fremvoksende leder inden for AI-træningsdata til at aktivere intelligent teknologi for globale organisationer, herunder de største teknologivirksomheder i verden. I partnerskab med et internationalt netværk af bidragydere indsamler og annoterer LXT data på tværs af multiple modaliteter med den hastighed, skala og fleksibilitet, der kræves af virksomhederne. De har en global ekspertise, der omfatter mere end 115 lande og 750 sprog. Grundlagt i 2010 har LXT hovedsæde i Toronto, Canada, med tilstedeværelse i USA, Australien, Egypten, Storbritannien og Tyrkiet. Virksomheden betjener kunder i Nordamerika, Europa, Asien-Stillehavet og Mellemøsten.
Hvornår opdagede du først, at du var passioneret om sprog?
Jeg har været fascineret af sprog, så længe jeg kan huske, men i forhold til min direkte engagement med sprog og lingvistik, var der et enkelt betydningsfuldt vendepunkt for mig. Vi opdagede meget tidligt, at en af vores børn var dyslektisk, og da vi talte med hendes skole om ekstra støtte, sagde de, at selvom der var programmer, de kunne tilgå, var der også ting, jeg kunne gøre som frivillig på skolen for at hjælpe vores datter og andre børn. Det gik godt, og derefter gik jeg videre til at studere lingvistik og fandt mig selv undervisende på to af universiteterne her i Sydney.
Du underviste i lingvistik, før du skiftede fokus til taledataområdet, hvad inspirerede dig til at skifte fokus?
Sydney-baserede Appen var lige i færd med at gå fra at være en operation, der blev kørt fra et ekstra rum i et hjem, til at være en fuldt udbygget kommerciel operation. Jeg blev fortalt, at de ledte efter lingvister (muligvis mere præcist, en lingvist!), og jeg blev introduceret til grundlæggerne Julie og Chris Vonwiller. Overgangen var gradvis og strakte sig over omkring to år. Jeg var tilbageholdende med at forlade undervisningen – at arbejde med højt præsterende studerende var både inspirerende og meget sjovt. Men især under disse pionerår løste jeg svære problemer sammen med verdens førende sprogteknologiske eksperter, og spændingsniveauet var højt. Meget af det, der tages for givet i dag, var meget udfordrende dengang.
Du gik ud af pension for at tilslutte dig LXT. Hvad motiverede dig til at gøre dette?
Det er et interessant spørgsmål, da jeg nød mig selv i pension. Faktisk kontaktede vores medstifter og CEO Mohammad Omar mig måneder før jeg svarede på hans første henvendelse, da jeg levede en afslappet livsstil og havde ikke rigtig overvejet at vende tilbage til fuldtidsarbejde. Efter at have accepteret at tage det første opkald, hvor Mo spurgte om muligheden for at tilslutte sig LXT, forventede jeg bare at lytte høfligt og afslå.
Men til sidst var muligheden simpelthen for god til at modstå.
Da jeg talte med Mohammad og de andre medlemmer af LXT-holdet, genkendte jeg straks en fælles passion for sprog. Holdet, som Mohammad havde samlet, var fyldt med kreative tænkere med ubegrænset energi, der var fuldt engageret i virksomhedens mission.
Da jeg lærte mere om muligheden med LXT, opdagede jeg, at det var en mulighed, jeg ikke ville gå glip af. Her var en virksomhed med massiv potentiale til at udvide og vokse i et område, jeg er passioneret om. Og da markedet for AI fortsætter med at vokse eksponentielt, er muligheden for at hjælpe flere organisationer med at gå fra eksperimenter til produktion en spændende mulighed, som jeg er meget glad for at være en del af.
Hvad er nogle af de nuværende udfordringer ved at erhverve data i stor skala?
Udfordringerne er lige så varierede som de anvendelser, der driver dem.
Fra et praktisk perspektiv omfatter udfordringerne ægthed, pålidelighed, nøjagtighed, sikkerhed og sikring af, at data er egnede til formålet – og det er uden at tage hensyn til det voksende antal lovmæssige og etiske udfordringer, der er indbyggede i dataindsamling.
For eksempel kræver udviklingen af teknologi til støtte for selvstændige køretøjer indsamling af ekstremt store mængder data på tværs af mange scenarier, så bilen kan forstå, hvordan den skal reagere på virkelige verdenssituationer. Der er endeløse antal edge-cases, man kan støde på, når man kører, så algoritmerne, der driver disse køretøjer, har brug for datasæt, der dækker alt fra gader til stopskilte til faldende objekter. Og derefter, hvis man multiplicerer det med antallet af vejrforhold, der kan optræde, øges mængden af træningsdata, der er nødvendig, eksponentielt. Bilvirksomheder, der går ind i det selvstændige område, har brug for at etablere en pålidelig datapipeline, og at gøre det på egen hånd ville kræve en masse ressourcer.
Et andet eksempel er udvidelsen af en eksisterende voice AI-produkt til nye markeder for at tiltrække markedsshare og nye kunder. Dette kræver uundgåeligt sprogdata, og for at opnå nøjagtighed er det kritisk at indsamle taledata fra modersmålsspeakere på tværs af en række demografiske profiler. Når dataene er indsamlet, har talefilene brug for at blive transkriberet for at træne produktets NLP-algoritmer. At gøre dette for multiple sprog og i de datakvanta, der er nødvendige for at være effektive, er ekstremt udfordrende for virksomheder at gøre på egen hånd, især hvis de mangler den interne ekspertise på dette område.
Disse er kun to eksempler på de mange udfordringer, der findes med dataindsamling til AI i stor skala, men som du kan forestille dig, har hjemautomatisering, mobilenheds- og biometrisk dataindsamling hver især deres specifikke udfordringer.
Hvordan indsamler og annoterer LXT data i øjeblikket?
Hos LXT indsamler og annoterer vi data på en anden måde for hver kunde, da alle vores engagementer er tilpasset for at opfylde vores kunders specifikationer. Vi arbejder på tværs af en række datatyper, herunder audio, billeder, tale, tekst og video. For dataindsamling arbejder vi med et globalt netværk af underentreprenører for at indsamle data i disse forskellige modaliteter. Indsamlinger kan variere fra at indsamle data i virkelige verdenssituationer, såsom hjem, kontorer eller i bil, til i studiet med erfarna ingeniører i tilfælde af visse taledataindsamlingsprojekter.
Vores dataannotationsevner omfatter også multiple modaliteter. Vores erfaring begyndte i taleområdet, og i løbet af de sidste 12 år er vi udvidet til over 115 lande og mere end 750 sprog. Dette betyder, at virksomheder af alle størrelser kan regne med LXT for at hjælpe dem med at trænge ind i en bred vifte af markeder og tiltrække nye kundesegmenter. Mere nylig er vi udvidet til tekst-, billed- og videodata, og vores interne platform bruges til at levere højkvalitetsdata til vores kunder.
Et andet spændende vækstområde for os har været vores sikre annotationsarbejde. I år har vi udvidet vores ISO 27001-sikre facilitetsfodaftryk fra to til fem lokaliteter på verdensplan. Vi har nu udviklet en playbook, der giver os mulighed for at etablere nye faciliteter på få måneder. De tjenester, vi fokuserer på i disse sikre faciliteter, er i øjeblikket taledataannotation og transkription, men de kan bruges til annotation på mange datatyper.
Hvorfor er indsamling af data på denne måde en overlegen alternativ til syntetisk data?
Syntetisk data er en spændende udvikling inden for AI og er velegnet til bestemte anvendelser, især edge-cases, der er svære at indfange i den virkelige verden. Brugen af syntetisk data er stigende, især i de tidlige faser af AI-moden, da virksomheder stadig er i eksperimenteringsfasen. Men vores egen forskning viser, at da organisationer modner deres AI-strategier og sætter flere modeller i produktion, er de langt mere tilbøjelige til at bruge supervisede eller semi-supervisede machine learning-metoder, der afhænger af menneske-annoterede data.
Mennesker er simpelthen bedre end computere til at forstå nuancerne og skabe de data, der er nødvendige for at træne ML-modeller til at fungere med høj nøjagtighed, og menneskelig oversigt er også afgørende for at reducere bias.
Hvorfor er denne data så vigtig for tale og Natural Language Processing?
For tale- og naturligsprogsbehandlingsalgoritmer at fungere effektivt i deres ønskede markeder, har de brug for at blive trænet med store mængder data indsamlet fra modersmålsspeakere, der har den kulturelle kontekst af de slutbrugere, de repræsenterer. Uden denne data vil voice AI-adoptionshave alvorlige begrænsninger.
Derudover skal miljøet tages i betragtning, når der indsamles taledata. Hvis voice AI-løsningen, der trænes, skal bruges i en bil, for eksempel, er der forskellige vej- og vejrforhold, der påvirker tale og skal tages i betragtning. Disse er komplekse scenarier, hvor en erfaren datapartner kan hjælpe.
Er der noget andet, du gerne vil dele om LXT?
Først og fremmest tak for muligheden for at dele vores historie! Jeg vil gerne fremhæve, at vores virksomhed er dedikeret til at hjælpe organisationer af alle størrelser med at lykkes med deres AI-initiativer. Vi har fokuseret på at levere højtilpasset AI-data til virksomheder på verdensplan i mere end 12 år og ville være glade for at være i kontakt med nogen, der søger at oprette en pålidelig datapipeline for at understøtte deres AI-projekter.
Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge LXT.












