intervjuer

Phil Hall, Chief Growth Officer ved LXT – Intervjuserien

oppdatert on Juni 6, 2023

LXT Chief Growth Officer Phil Hall er tidligere Appen-sjef og Forbes teknologiråd medlem. I sin lederrolle i Appen drev han en avdeling på 1,000+ ansatte og spilte en nøkkelrolle i å oppnå 17 år på rad med inntektsvekst med konsekvent sterk lønnsomhet. I sin nåværende rolle i LXT jobber han med et håndplukket team av eksperter for å oppnå ambisiøse vekstmål.

LXT er en voksende leder innen AI-treningsdata for å drive intelligent teknologi for globale organisasjoner, inkludert de største teknologiselskapene i verden. I samarbeid med et internasjonalt nettverk av bidragsytere, samler og kommenterer LXT data på tvers av flere modaliteter med hastigheten, skalaen og smidigheten som kreves av bedriften. De har en global ekspertise som spenner over mer enn 115 land og 750 språkområder. LXT ble grunnlagt i 2010, og har hovedkontor i Toronto, Canada med tilstedeværelse i USA, Australia, Egypt, Storbritannia og Tyrkia. Selskapet betjener kunder i Nord-Amerika, Europa, Asia og Midtøsten.

Når oppdaget du først at du var lidenskapelig opptatt av språk?

Jeg har vært fascinert av språk så lenge jeg kan huske, men når det gjelder mitt direkte engasjement med språk og lingvistikk, var det et eneste betydelig vendepunkt for meg. Vi skjønte veldig tidlig at et av barna våre var dyslektikere, og da vi snakket med skolen hennes om tilleggsstøtte sa de at selv om det var programmer de kunne få tilgang til, var det også ting jeg kunne gjøre som frivillig på skolen for å hjelpe våre datter og andre barn. Det gikk bra, og derfra studerte jeg lingvistikk og fant meg selv undervise ved to av universitetene her i Sydney.

Du underviste i lingvistikk før du flyttet inn i taledatarommet, hva inspirerte deg til å skifte fokus?

Sydney-baserte Appen gjorde nettopp overgangen fra å være en operasjon som gikk tom for et ledig rom i et hjem til å være en fullverdig kommersiell operasjon. Jeg ble fortalt at de lette etter lingvister (kanskje mer nøyaktig, en lingvist!), og jeg ble introdusert for grunnleggerne Julie og Chris Vonwiller. Overgangen var gradvis og strakte seg over omtrent to år. Jeg var motvillig til å gå bort fra undervisningen – det å jobbe med elever med høye prestasjoner var både inspirerende og veldig gøy. Men spesielt under disse pionerårene løste jeg vanskelige problemer sammen med verdens ledende språkteknologieksperter, og spenningsnivået var høyt. Mye av det som tas for gitt i dag, var veldig utfordrende på den tiden.

Du kom ut av pensjonisttilværelsen for å bli med i LXT. Hva motiverte deg til å gjøre dette?

Det er et interessant spørsmål, siden jeg definitivt koste meg som pensjonist. Faktisk kontaktet vår medgründer og administrerende direktør Mohammad Omar meg måneder før jeg svarte på hans første henvendelse, da jeg levde en avslappet livsstil og egentlig ikke hadde tenkt på å gå tilbake til heltidsarbeid. Etter å ha sagt ja til å ta den første samtalen der Mo spurte om muligheten for å bli med i LXT, forventet jeg å bare lytte høflig og takke nei.

Men til slutt var muligheten rett og slett for god til å motstå.

Mens jeg snakket med Mohammad og de andre medlemmene av LXT-teamet, gjenkjente jeg umiddelbart en felles lidenskap for språk. Teamet som Mohammad hadde satt sammen var fylt med kreative tenkere med grenseløs energi som var fullt forpliktet til selskapets misjon.

Da jeg lærte mer om muligheten med LXT, skjønte jeg at det var en jeg ikke ville gå glipp av. Her var et selskap med et enormt potensial til å ekspandere og vokse i et område jeg brenner for. Og ettersom markedet for AI fortsetter å vokse eksponentielt, er muligheten til å hjelpe flere organisasjoner med å gå fra eksperimentering til produksjon spennende som jeg er veldig glad for å være en del av.

Hva er noen av de nåværende utfordringene bak innhenting av data i stor skala?

Utfordringene er like varierte som applikasjonene som driver dem.

Fra et praktisk perspektiv inkluderer utfordringer autentisitet, pålitelighet, nøyaktighet, sikkerhet og å sikre at dataene passer til formålet – og det er uten å ta hensyn til det økende antallet juridiske og etiske utfordringer som ligger i datainnsamling.

For eksempel krever utviklingen av teknologi til støtte for autonome kjøretøy innsamling av ekstremt store datamengder på tvers av en rekke scenarier, slik at bilen vil forstå hvordan den skal reagere på virkelige situasjoner. Det er et uendelig antall kantsaker man kan møte når man kjører, så algoritmene som driver disse kjøretøyene trenger datasett som dekker alt fra gater til stoppskilt til fallende gjenstander. Og så hvis du ganger det med antall værhendelser som kan oppstå, øker mengden treningsdata som trengs eksponentielt. Bilselskaper som begir seg ut i det autonome rommet trenger å etablere en pålitelig datapipeline, og å gjøre det på egen hånd vil kreve en enorm mengde ressurser.

Et annet bruksområde er utvidelsen av et eksisterende stemme-AI-produkt til nye markeder for å ta markedsandeler og nye kunder. Dette krever uunngåelig språkdata, og for å oppnå nøyaktighet er det avgjørende å hente taledata fra morsmål på tvers av en rekke demografiske profiler. Når dataene er samlet inn, må talefilene transkriberes for å trene opp produktets NLP-algoritmer. Å gjøre dette for flere språk og med de datavolumene som trengs for å være effektive er ekstremt utfordrende for selskaper å gjøre på egenhånd, spesielt hvis de mangler intern ekspertise på dette feltet.

Dette er bare to eksempler på de mange utfordringene som eksisterer med datainnsamling for AI i stor skala, men som du kan forestille deg, har hjemmeautomatisering, mobilenhet og biometriske datainnsamlinger også hver sine spesifikke utfordringer.

Hva er de nåværende måtene LXT henter og merker data på?

Hos LXT samler vi inn og kommenterer data forskjellig for hver kunde, siden alle våre engasjementer er skreddersydd for å møte kundenes spesifikasjoner. Vi jobber på tvers av en rekke datatyper, inkludert lyd, bilde, tale, tekst og video. For datainnsamlinger jobber vi med et globalt nettverk av entreprenører for å samle inn data i disse ulike modalitetene. Samlinger kan variere fra innhenting av data i virkelige omgivelser som hjemme, kontorer eller i bilen, til i studio med erfarne ingeniører når det gjelder visse taledatainnsamlingsprosjekter.

Våre datakommentarfunksjoner spenner også over flere modaliteter. Vår erfaring begynte i talerommet, og i løpet av de siste 12 årene har vi ekspandert til over 115 land og mer enn 750 språkområder. Dette betyr at selskaper i alle størrelser kan stole på LXT for å hjelpe dem med å penetrere et bredt spekter av markeder og fange nye kundesegmenter. Nylig har vi utvidet til tekst-, bilde- og videodata, og vår interne plattform brukes til å levere data av høy kvalitet til kundene våre.

Et annet spennende vekstområde for oss har vært vårt sikre annoteringsarbeid. Akkurat i år utvidet vi vårt ISO 27001 sikre anleggsfotavtrykk fra to til fem steder over hele verden. Vi har nå utviklet en lekebok som gjør oss i stand til å etablere nye anlegg i løpet av få måneder. Tjenestene vi fokuserer på i disse sikre fasilitetene er for tiden taledataannotering og transkripsjon, men de kan brukes til merknader på tvers av mange datatyper.

Hvorfor er innhenting av data på denne måten et overlegent alternativ til syntetiske data?

Syntetiske data er en spennende utvikling innen kunstig intelligens og er godt egnet for spesifikke brukstilfeller, spesielt kantsaker som er vanskelige å fange opp i den virkelige verden. Bruken av syntetiske data er på vei oppover, spesielt i de tidlige stadiene av AI-modenhet ettersom selskaper fortsatt er i eksperimenteringsmodus. Imidlertid vår egen forskning viser at etter hvert som organisasjoner modner sine AI-strategier og setter flere modeller i produksjon, er det mye mer sannsynlig at de bruker overvåket eller semi-overvåket maskinlæringsmetoder som er avhengige av menneskelig kommenterte data.

Mennesker er rett og slett bedre enn datamaskiner til å forstå nyansene for å lage dataene som trengs for å trene ML-modeller til å yte med høy nøyaktighet, og menneskelig tilsyn er også avgjørende for å redusere skjevhet.

Hvorfor er disse dataene så viktige for tale og naturlig språkbehandling?

For at tale- og naturlig språkbehandlingsalgoritmer skal fungere effektivt i de tiltenkte markedene, må de trenes med store mengder data hentet fra morsmål som har den kulturelle konteksten til sluttbrukerne de representerer. Uten disse dataene vil stemme-AI-adopsjon ha alvorlige begrensninger.

I tillegg må det tas hensyn til miljøet når man samler inn taledata. Hvis stemme-AI-løsningen som trenes skal brukes i en bil, for eksempel, er det forskjellige vei- og værforhold som påvirker talen og må tas i betraktning. Dette er komplekse scenarier der en erfaren datapartner kan hjelpe.

Er det noe annet du vil dele om LXT?

Først vil jeg takke deg for muligheten til å dele historien vår! Jeg vil understreke at selskapet vårt er forpliktet til å hjelpe organisasjoner i alle størrelser med å lykkes med sine AI-initiativer. Vi har vært fokusert på å levere svært tilpassede AI-data til selskaper over hele verden i over 12 år, og vi vil gjerne komme i kontakt med alle som ønsker å lage en pålitelig datapipeline for å støtte deres AI-prosjekter.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke LXT.