Intervjuer
Phil Hall, Chief Growth Officer på LXT – Intervjuserie

LXT:s Chief Growth Officer Phil Hall är en före detta Appen-exekutiv och Forbes Technology Council medlem. I sin ledande roll på Appen ledde han en avdelning med 1 000+ anställda och spelade en nyckelroll i att uppnå 17 år i rad med ökande intäkter med konsekvent stark lönsamhet. I sin nuvarande roll på LXT arbetar han med ett handplockat team av experter för att uppnå ambitiösa tillväxtmål.
LXT är en framväxande ledare inom AI-träningsdata för att driva intelligent teknik för globala organisationer, inklusive världens största teknikföretag. I samarbete med ett internationellt nätverk av bidragsgivare samlar LXT in och annoterar data över flera modaliteter med den hastighet, skala och smidighet som krävs av företaget. De har en global expertis som omfattar mer än 115 länder och 750 språklokaler. Grundat 2010 har LXT sitt huvudkontor i Toronto, Kanada, med närvaro i USA, Australien, Egypten, Storbritannien och Turkiet. Företaget servar kunder i Nordamerika, Europa, Asien och Stillahavsområdet samt Mellanöstern.
När upptäckte du initialt att du var passionerad om språk?
Jag har varit fascinerad av språk så länge jag kan minnas, men när det gäller min direkta engagemang med språk och lingvistik, fanns det en enda betydande vändpunkt för mig. Vi insåg mycket tidigt att en av våra barn var dyslektisk, och när vi talade med hennes skola om ytterligare stöd sa de att medan det fanns program de kunde komma åt, fanns det också saker jag kunde göra som frivillig på skolan för att hjälpa vår dotter och andra barn. Det gick bra, och från där gick jag vidare till att studera lingvistik och fann mig själv undervisande på två av universiteten här i Sydney.
Du undervisade i lingvistik innan du flyttade till taldataområdet, vad inspirerade dig att skifta fokus?
Sydney-baserade Appen var just i färd med att gå från att vara en verksamhet som drevs från ett extra rum i ett hem till att vara en fullständig kommersiell verksamhet. Jag blev informerad om att de letade efter lingvister (kanske mer korrekt, en lingvist!) och jag introducerades till grundarna Julie och Chris Vonwiller. Övergången var gradvis och sträckte sig över cirka två år. Jag var ovillig att lämna undervisningen – att arbeta med högpresterande studenter var både inspirerande och mycket roligt. Men särskilt under dessa pionjärår löste jag svåra problem tillsammans med världens ledande språkteknikexperter, och spänningen var hög. Mycket av det som tas för givet idag var mycket utmanande vid den tiden.
Du gick i pension för att sedan ansluta till LXT. Vad motiverade dig att göra detta?
Det är en intressant fråga eftersom jag verkligen njöt av mig själv i pension. Faktum är att vår medgrundare och VD Mohammad Omar närmade sig mig månader innan jag svarade på hans initiala förfrågan, eftersom jag levde ett avslappnat liv och hade inte riktigt funderat på att återgå till heltidsarbete. Efter att ha kommit överens om att ta det första samtalet där Mo frågade om möjligheten att ansluta till LXT, förväntade jag mig att bara lyssna artigt och avböja.
Men till slut var möjligheten helt enkelt för bra för att motstå.
Medan jag talade med Mohammad och de andra medlemmarna i LXT-teamet, erkände jag omedelbart en delad passion för språk. Teamet som Mohammad hade satt samman var fullt av kreativa tänkare med obegränsad energi som var fullständigt engagerade i företagets uppdrag.
När jag lärde mig mer om möjligheten med LXT, insåg jag att det var en möjlighet som jag inte ville missa. Här var ett företag med massiv potential att expandera och växa inom ett område som jag är passionerad om. Och eftersom marknaden för AI fortsätter att växa exponentiellt, är möjligheten att hjälpa fler organisationer att gå från experiment till produktion en spännande möjlighet som jag är mycket glad att vara en del av.
Vilka är några av de nuvarande utmaningarna bakom att förvärva data i stor skala?
Utmaningarna är lika varierade som tillämpningarna som driver dem.
Från ett praktiskt perspektiv inkluderar utmaningarna äkthet, tillförlitlighet, noggrannhet, säkerhet och att säkerställa att data är lämplig för ändamålet – och det är utan att ta hänsyn till det ökande antalet juridiska och etiska utmaningar som är inneboende i dataförvärv.
Till exempel kräver utvecklingen av teknik för att stödja autonoma fordon insamling av extremt stora volymer data över många scenarier så att bilen ska förstå hur den ska reagera på verkliga världssituationer. Det finns oändliga antal randfall som man kan stöta på när man kör, så algoritmerna som driver dessa fordon behöver datamängder som täcker allt från gator till stoppskyltar till fallande föremål. Och sedan, om man multiplicerar det med antalet väderhändelser som kan inträffa, ökar mängden träningsdata som behövs exponentiellt. Biltillverkare som ger sig in på den autonoma rymden behöver etablera en tillförlitlig datapipeline, och att göra det på egen hand skulle kräva en enorm mängd resurser.
Ett annat användningsfall är utvidgningen av en befintlig röst-AI-produkt till nya marknader för att fånga marknadsandelar och nya kunder. Detta kräver utan tvekan språkdata, och för att uppnå noggrannhet är det kritiskt att källa taldata från infödda talare över en mängd olika demografiska profiler. När data har samlats in behöver talfilerna transkriberas för att träna produktens NLP-algoritmer. Att göra detta för flera språk och i de datavolymer som behövs för att vara effektivt är extremt utmanande för företag att göra på egen hand, särskilt om de saknar intern expertis inom detta område.
Detta är bara två exempel på de många utmaningar som finns med datainsamling för AI i stor skala, men som du kan föreställa dig, hemautomatisering, mobila enhets- och biometrisk datainsamling har alla sina specifika utmaningar.
Hur samlar och annoterar LXT data för närvarande?
På LXT samlar och annoterar vi data på olika sätt för varje kund, eftersom alla våra engagemang är skräddarsydda för att möta våra kunders specifikationer. Vi arbetar med en mängd olika datatyper, inklusive ljud, bild, tal, text och video. För datainsamling arbetar vi med ett globalt nätverk av entreprenörer för att samla in data i dessa olika modaliteter. Insamlingarna kan sträcka sig från att förvärva data i verkliga världssammanhang, såsom hem, kontor eller i bil, till i studio med erfarna ingenjörer i fallet med vissa taltdatainsamlingsprojekt.
Vår datannoteringsförmåga omfattar också flera modaliteter. Vår erfarenhet började i talspace och under de senaste 12 åren har vi utvidgat oss till över 115 länder och mer än 750 språklokaler. Detta innebär att företag av alla storlekar kan lita på LXT för att hjälpa dem att tränga in i en mängd olika marknader och fånga nya kundsegment. Mer nyligen har vi utvidgat oss till text-, bild- och videodata, och vår interna plattform används för att leverera högkvalitetsdata till våra kunder.
Ett annat spännande tillväxtområde för oss har varit vårt säkra annoteringsarbete. Bara i år har vi utvidgat vår ISO 27001-säkra anläggningsfotavtryck från två till fem platser i hela världen. Vi har nu utvecklat en playbook som möjliggör att etablera nya anläggningar på bara några månader. Tjänsterna vi fokuserar på i dessa säkra anläggningar är för närvarande taltdataannotering och transkription, men de kan användas för annotering av många datatyper.
Varför är källa till data på detta sätt en överlägsen alternativ till syntetisk data?
Syntetisk data är en spännande utveckling inom AI-området och är väl lämpad för specifika användningsfall, särskilt randfall som är svåra att fånga i den verkliga världen. Användningen av syntetisk data ökar, särskilt i de tidiga stadierna av AI-mognad när företag fortfarande är i experimentell fas. Men vår egen forskning visar att när organisationer mognar sina AI-strategier och trycker mer modeller i produktion, är de mycket mer benägna att använda övervakad eller semi-övervakad maskinlärning som förlitar sig på mänskligt annoterad data.
Människor är helt enkelt bättre än datorer på att förstå nyanserna för att skapa de data som behövs för att träna ML-modeller för att utföra med hög noggrannhet, och mänsklig tillsyn är också avgörande för att minska bias.
Varför är denna data så viktig för tal och naturlig språkbehandling?
För tals och naturlig språkbehandlingsalgoritmer för att fungera effektivt i sina avsedda marknader, behöver de tränas med stora mängder data som samlats in från infödda talare som har den kulturella kontexten för de slutanvändare de representerar. Utan denna data, kommer röst-AI-antagandet att ha allvarliga begränsningar.
Dessutom måste miljön beaktas när man samlar in taltdata. Om den röst-AI-lösning som tränas kommer att användas i en bil, till exempel, finns det olika väg- och väderförhållanden som påverkar talet och måste beaktas. Detta är komplexa scenarier där en erfaren datapartner kan hjälpa till.
Finns det något annat du vill dela om LXT?
Först vill jag tacka för möjligheten att dela vår historia! Jag vill betona att vårt företag är engagerat i att hjälpa organisationer av alla storlekar att lyckas med sina AI-initiativ. Vi har fokuserat på att leverera högt anpassad AI-data till företag runt om i världen i över 12 år och vi skulle vara glada att ansluta till alla som vill skapa en tillförlitlig datapipeline för att stödja sina AI-projekt.
Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka LXT.












