Intervjuer
Phil Hall, Chief Growth Officer i LXT – Intervju-serie

LXT Chief Growth Officer Phil Hall er en tidligere Appen-ansatt og Forbes Technology Council-medlem. I sin ledelsesrolle i Appen ledet han en avdeling med over 1 000 ansatte og spilte en nøkkelrolle i å oppnå 17 år med sammenhengende omsetningsvekst med jevnt over sterkt lønnsomhet. I sin nåværende rolle i LXT arbeider han med et håndplukket team av eksperter for å nå ambisiøse vekstmaal.
LXT er en fremvoksende leder innen AI-treningdata for å aktivere intelligent teknologi for globale organisasjoner, inkludert de største teknologiselskapene i verden. I samarbeid med et internasjonalt nettverk av bidragsytere, samler og annoterer LXT data på tvers av flere modaliteter med den hastighet, skala og fleksibilitet som kreves av bedriftene. De har en global ekspertise som omfatter over 115 land og 750 språklocale. Grunnlagt i 2010, har LXT hovedkontor i Toronto, Canada, med nærvær i USA, Australia, Egypt, Storbritannia og Tyrkia. Selskapet betjener kunder i Nord-Amerika, Europa, Asia-Stillehavet og Midtøsten.
Når oppdaget du først at du var lidenskapelig opptatt av språk?
Jeg har vært fascinert av språk så lenge jeg kan huske, men når det gjelder min direkte engasjement med språk og lingvistikk, var det et enkelt avgjørende vendepunkt for meg. Vi innsett meget tidlig at en av våre barn var dyslektisk, og når vi snakket med skolen deres om ekstra støtte, sa de at det var programmer de kunne få tilgang til, men det var også ting jeg kunne gjøre som frivillig på skolen for å hjelpe vår datter og andre barn. Det gikk bra, og deretter tok jeg lingvistikk og fant meg selv undervise på to av universitetene her i Sydney.
Du underviste i lingvistikk før du gikk over til taledataområdet, hva inspirerte deg til å endre fokus?
Sydney-baserte Appen var nettopp i ferd med å gå fra å være en operasjon drevet fra et ekstra rom i et hjem til å bli en fullstendig kommersiell operasjon. Jeg ble fortalt at de lette etter lingvister (kanskje mer nøyaktig, en lingvist!) og jeg ble introdusert for grunnleggerne Julie og Chris Vonwiller. Overgangen var gradvis og strakk seg over omtrent to år. Jeg var motvillig til å forlate undervisningen – å arbeide med høytpresterende studenter var både inspirerende og veldig morsomt. Men spesielt under disse pionerårene løste jeg vanskelige problemer sammen med verdens ledende språkteknologi-eksperter, og spenningene var høye. Mye av det som tas for gitt i dag, var svært utfordrende på den tiden.
Du gikk ut av pensjon til å bli med i LXT. Hva motiverte deg til å gjøre dette?
Det er et interessant spørsmål, siden jeg faktisk nøt meg selv i pensjon. Faktisk approcherte vår medgrunnlegger og CEO Mohammad Omar meg måneder før jeg svarte på hans opprinnelige forespørsel, da jeg levde en avslappet livsstil og hadde ikke tenkt å returnere til fulltidsarbeid. Etter å ha gått med på å ta det første samtalet hvor Mo spurte om muligheten til å bli med i LXT, ventet jeg bare å lytte høflig og avslå.
Men til slutt var muligheten bare for god til å motstå.
Mens jeg snakket med Mohammad og de andre medlemmene av LXT-teamet, gjenkjente jeg umiddelbart en delt lidenskap for språk. Teamet som Mohammad hadde samlet, var fylt med kreative tenkere med ubegrenset energi som var fullstendig dedikert til selskapets misjon.
Da jeg lærte mer om muligheten med LXT, innsett jeg at det var en mulighet jeg ikke ville gå glipp av. Her var et selskap med massiv potensial til å utvide og vokse i et område jeg er lidenskapelig opptatt av. Og ettersom markedet for AI fortsetter å vokse eksponentielt, er muligheten til å hjelpe flere organisasjoner å gå fra eksperimentering til produksjon en spennende en som jeg er veldig glad for å være en del av.
Hva er noen av de nåværende utfordringene bak innhenting av data i stor skala?
Utfordringene er like varierte som anvendelsene som driver dem.
Fra et praktisk perspektiv inkluderer utfordringene autentisitet, pålitelighet, nøyaktighet, sikkerhet og å sikre at dataene er egnet for formålet – og det er uten å ta med i betraktning det økende antallet juridiske og etiske utfordringer som er innebygget i datainnsamling.
For eksempel krever utviklingen av teknologi til støtte for autonome kjøretøy innsamling av ekstremt store volumer av data over en mengde scenarier, så bilen vil forstå hvordan den skal reagere på virkelige verdens situasjoner. Det er endeløse antall edge-cases som en kan møte når en kjører, så algoritmene som driver disse kjøretøyene trenger datasamlinger som dekker alt fra gater til stoppskilt til fallende objekter. Og så hvis en multipliserer det med antallet værmeldinger som kan oppstå, øker mengden av treningsdata som trengs eksponentielt. Bil-selskaper som går inn i det autonome rommet, må etablere en pålitelig datapipeline, og å gjøre det på egen hånd ville ta en masse ressurser.
Et annet brukstilfelle er utvidelsen av en eksisterende tale-AI-produkt til nye markeder for å fange markedsshare og nye kunder. Dette krever uunngåelig språkdata, og for å oppnå nøyaktighet er det kritisk å source taledata fra innfødte talere over en rekke demografiske profiler. Når dataene er samlet inn, må talefilene transkriberes for å trene produktets NLP-algoritmer. Å gjøre dette for flere språk og i de data-volumer som er nødvendig for å være effektive, er ekstremt utfordrende for selskaper å gjøre på egen hånd, spesielt hvis de mangler intern ekspertise på dette feltet.
Disse er bare to eksempler på de mange utfordringene som eksisterer med datainnsamling for AI i stor skala, men som du kan forestille deg, hjemme-automatisering, mobil-data og biometriske datainnsamlinger har hver sine spesifikke utfordringer.
Hva er de nåværende måtene LXT sourcer og annoterer data på?
Ved LXT samler og annoterer vi data forskjellig for hver kunde, siden alle våre engasjementer er tilpasset for å møte kundens spesifikasjoner. Vi arbeider over en rekke datatyper, inkludert audio, bilde, tale, tekst og video. For datainnsamlinger arbeider vi med et globalt nettverk av kontraktorer for å samle inn data i disse forskjellige modalitetene. Innsamlinger kan variere fra å samle inn data i virkelige verdens settinger som hjem, kontor eller i bil, til i studio med erfarne ingeniører i tilfelle visse taledatainnsamlingsprosjekter.
Våre data-annoteringskapasiteter omfatter også flere modaliteter. Vår erfaring begynte i tale-rommet og over de siste 12 årene har vi utvidet til over 115 land og mer enn 750 språklocale. Dette betyr at selskaper av alle størrelser kan stole på LXT for å hjelpe dem å penetrere en rekke markeder og fange nye kundesegmenter. Mer nylig har vi utvidet til tekst-, bilde- og video-data, og vår interne plattform brukes til å levere høykvalitetsdata til våre kunder.
Et annet spennende vekstområde for oss har vært vårt sikre annoteringsarbeid. Bare i år utvidet vi vårt ISO 27001-sikre fasilitetsfootprint fra to til fem lokasjoner verden over. Vi har nå utviklet en playbook som gjør det mulig for oss å etablere nye fasiliteter på noen måneder. Tjenestene vi fokuserer på i disse sikre fasilitetene er for tiden taledata-annotering og transkripsjon, men de kan brukes til annotering over mange datatyper.
Hvorfor er å source data på denne måten en overlegen alternativ til syntetisk data?
Syntetisk data er en spennende utvikling innen AI og er godt egnet til bestemte brukstilfeller, spesielt edge-cases som er vanskelige å fange i den virkelige verden. Bruken av syntetisk data er på fremmarsj, spesielt i de tidlige fasene av AI-maturitet, da selskaper fortsatt er i eksperimenteringsmodus. Men vår egen forskning viser at når organisasjoner modner deres AI-strategier og skyver flere modeller inn i produksjon, er de mye mer sannsynlig til å bruke overvåket eller semi-overvåket maskinlæring-metoder som avhenger av menneske-annotert data.
Mennesker er enkelt bedre enn datamaskiner til å forstå nyansene for å skape dataene som trengs for å trene ML-modeller til å fungere med høy nøyaktighet, og menneskelig tilsyn er også kritisk for å redusere bias.
Hvorfor er denne dataen så viktig for tale og naturlig språkbehandling?
For tale- og naturlig språkbehandlingsalgoritmer å fungere effektivt i deres målmarkeder, må de trenes med store volumer av data sourcet fra innfødte talere som har den kulturelle konteksten til sluttbrukerne de representerer. Uten denne dataen, vil tale-AI-tilpasningen ha alvorlige begrensninger.
I tillegg må miljøet tas med i betraktning når det gjelder å samle inn taledata. Hvis tale-AI-løsningen som trenes skal brukes i en bil, for eksempel, er det forskjellige vei- og værforhold som påvirker tale og må tas med i betraktning. Disse er komplekse scenarier hvor en erfaren datapartner kan hjelpe.
Er det noe annet du ønsker å dele om LXT?
Først og fremst ønsker jeg å takke for muligheten til å dele vår historie! Jeg vil gjerne understreke at vårt selskap er dedikert til å hjelpe organisasjoner av alle størrelser å lykkes med deres AI-initiativer. Vi har fokusert på å levere høytilpasset AI-data til selskaper over hele verden i over 12 år og vi ville gjerne ta kontakt med noen som ønsker å etablere en pålitelig datapipeline for å støtte deres AI-prosjekter.
Takk for det flotte intervjuet, lesere som ønsker å lære mer, kan besøke LXT.












