Rozhovory
Phil Hall, Chief Growth Officer at LXT – Interview Series

LXT Chief Growth Officer Phil Hall je bývalý výkonný pracovník Appen a člen Forbes Technology Council. Ve své vedoucí roli v Appen vedl divizi s více než 1 000 zaměstnanci a sehrál klíčovou roli při dosažení 17 po sobě jdoucích let růstu tržeb s konzistentně silnou ziskovostí. Ve své současné roli v LXT spolupracuje s pečlivě vybraným týmem odborníků na dosažení ambiciózních cílů růstu.
LXT je vznikající lídr v oblasti školení umělé inteligence pro globální organizace, včetně největších technologických společností na světě. Ve spolupráci s mezinárodní sítí přispěvatelů LXT shromažďuje a anotuje data napříč několika modality s rychlostí, rozsahem a pružností požadovanou podniky. Má globální odborné znalosti, které pokrývají více než 115 zemí a 750 jazykových lokalit. Založena v roce 2010, LXT má sídlo v Torontu, Kanada, a je přítomna ve Spojených státech, Austrálii, Egyptě, Velké Británii a Turecku. Společnost slouží zákazníkům v Severní Americe, Evropě, Asii a Pacifiku a na Blízkém východě.
Kdy jste poprvé zjistil, že máte vášeň pro jazyk?
Jsem fascinován jazykem už tak dlouho, jak si pamatuji, ale co se týče mé přímé účasti na jazyce a lingvistice, byla pro mě jedna významná změna. Brzy jsme si uvědomili, že jedno z našich dětí je dyslektické, a když jsme mluvili se školou o další podpoře, řekli nám, že zatímco existují programy, které mohou využít, existují také věci, které mohu udělat jako dobrovolník ve škole, abych pomohl naší dceři a ostatním dětem. Šlo to dobře a od té doby jsem začal studovat lingvistiku a nakonec jsem učil na dvou univerzitách zde v Sydney.
Učili jste lingvistiku, než jste se přesunuli do prostoru mluvených dat, co vás inspirovalo k této změně?
Sydneyská společnost Appen právě přecházela z provozu v místnosti v domě na plnohodnotnou komerční operaci. Byl jsem informován, že hledají lingvisty (možná přesněji lingvistu!) a byl jsem představen zakladatelům Julii a Chrisovi Vonwillerovým. Přechod byl postupný a trval zhruba dva roky. Byl jsem váhavý opustit učení – práce s vysokoškolskými studenty byla inspirující a velmi zábavná. Ale zejména v těch průkopnických letech jsem řešil složité problémy spolu se světovými odborníky na jazykovou technologii a úrovně vzrušení byly vysoké. Mnoho věcí, které jsou dnes samozřejmé, bylo tehdy velmi náročné.
Vyšli jste z důchodu, aby jste se připojili k LXT. Co vás motivovalo k tomu?
To je zajímavá otázka, protože jsem si действительно užíval svého důchodu. Ve skutečnosti mě náš spoluzakladatel a generální ředitel Mohammad Omar oslovil měsíce předtím, než jsem reagoval na jeho počáteční dotaz, protože jsem žil uvolněným životním stylem a vážně neuvažoval o návratu do plného pracovního úvazku. Po dohodě na prvním hovoru, kde Mo hovořil o možnosti připojit se k LXT, jsem očekával, že pouze poslouchám slušně a odmítám.
Ale nakonec byla příležitost prostě příliš dobrá, aby se jí vzdal.
Během hovoru s Mohammadem a dalšími členy týmu LXT jsem okamžitě rozpoznal sdílenou vášeň pro jazyk. Tým, který Mohammad shromáždil, byl plný kreativních myslitelů s neomezenou energií, kteří byli plně oddáni misi společnosti.
Když jsem se více dozvěděl o příležitosti s LXT, uvědomil jsem si, že je to příležitost, kterou nechci propásnout. Zde byla společnost s obrovským potenciálem pro expanzi a růst v oblasti, o kterou jsem vášnivě zajímám. A protože trh s umělou inteligencí dále roste exponenciálně, je příležitost pomoci více organizacím přejít z experimentování na produkci vzrušující, a jsem rád, že jsem součástí toho.
Jaké jsou některé z aktuálních výzev spojených se získáváním dat ve velkém měřítku?
Výzvy jsou tak rozmanité, jako jsou aplikace, které je pohánějí.
Z praktického hlediska zahrnují výzvy autenticitu, spolehlivost, přesnost, bezpečnost a zajištění, že data jsou vhodné pro účel – a to je bez zohlednění rostoucího počtu právních a etických výzev, které jsou inherentní při získávání dat.
Například vývoj technologie na podporu autonomních vozidel vyžaduje sběr extrémně velkých objemů dat napříč mnoha scénáři, aby vůz pochopil, jak reagovat na reálné situace. Existuje nekonečné množství edge případů, se kterými můžete narazit při řízení, takže algoritmy, které pohánějí tato vozidla, potřebují datové sady, které pokrývají vše od ulic po dopravní značky až po padající objekty. A pak, pokud to vynásobíte počtem povětrnostních událostí, které mohou nastat, objem trénovacích dat se exponenciálně zvyšuje. Automobilky, které vstupují do autonomního prostoru, potřebují založit spolehlivou datovou trubku, a dělat to na vlastní pěst by vyžadovalo enormní množství zdrojů.
Jiným případem použití je expanze stávajícího produktu hlasové AI do nových trhů, aby se zachytila tržní podíl a noví zákazníci. To nevyhnutelně vyžaduje jazyková data, a aby se dosáhlo přesnosti, je kritické zdrojovat mluvená data od rodilých mluvčích napříč různými demografickými profily. Jakmile jsou data shromážděna, zvukové soubory je třeba přepisovat, aby se trénovaly algoritmy NLP produktu. Dělání tohoto pro mnoho jazyků a v objemech dat, které jsou potřebné k efektivnímu fungování, je extrémně náročné pro společnosti, aby to dělaly samy, zejména pokud postrádají vnitřní odborné znalosti v tomto oboru.
Tyto jsou pouze dva příklady mnoha výzev, které existují při sběru dat pro umělou inteligenci ve velkém měřítku, ale můžete si představit, že domácí automatizace, mobilní zařízení a biometrická data sbírání mají také své specifické výzvy.
Jaké jsou současné způsoby, kterými LXT zdrojí a anotují data?
V LXT shromažďujeme a anotujeme data jinak pro každého zákazníka, protože všechny naše smlouvy jsou přizpůsobeny tak, aby splňovaly specifikace našich klientů. Pracujeme napříč různými typy dat, včetně audio, obrazu, řeči, textu a videa. Pro sběr dat spolupracujeme se světovou sítí dodavatelů, aby shromáždili data v těchto různých modalitách. Sbírky mohou zahrnovat získání dat v reálných prostředích, jako jsou domovy, kanceláře nebo v autě, nebo ve studiu s zkušenými inženýry v případě určitých projektů sběru mluvených dat.
Naše schopnosti anotace dat také pokrývají multiple modality. Naše zkušenosti začaly v prostoru řeči a za posledních 12 let jsme se rozšířili do více než 115 zemí a více než 750 jazykových lokalit. To znamená, že společnosti všech velikostí se mohou spolehnout na LXT, aby jim pomohly proniknout do širokého spektra trhů a zachytit nové zákaznické segmenty. Nedávno jsme se také rozšířili do textových, obrazových a videodat a naše interní platforma se používá k dodání vysoce kvalitních dat našim zákazníkům.
Další zajímavou oblastí růstu pro nás je naše bezpečná anotační práce. Letos jsme rozšířili naše bezpečné zařízení ISO 27001 z dvou na pět lokalit po celém světě. Vyvinuli jsme playbook, který nám umožňuje zřídit nová zařízení během několika měsíců. Služby, na které se zaměřujeme v těchto bezpečných zařízeních, jsou目前 zaměřeny na anotaci a přepis mluvených dat, ale mohou být použity pro anotaci mnoha typů dat.
Proč je zdrojování dat tímto způsobem lepší alternativa k syntetickým datům?
Syntetická data jsou vzrušujícím vývojem v oblasti umělé inteligence a jsou vhodné pro konkrétní použití, zejména pro edge případy, které jsou obtížně zachytitelné ve skutečném světě. Použití syntetických dat roste, zejména v raných fázích zralosti umělé inteligence, protože společnosti jsou stále v experimentálním režimu. Naše vlastní výzkum však ukazuje, že když organizace zrají své strategie umělé inteligence a více modelů uvádějí do produkce, jsou mnohem více pravděpodobně používat dohledované nebo polo-dohledované metody strojového učení, které spoléhají na lidsky anotovaná data.
Lidé jsou prostě lepší než počítače v porozumění nuancím, aby vytvořili data potřebná k trénování modelů strojového učení, aby fungovaly s vysokou přesností, a lidský dohled je také kritický pro snížení zkreslení.
Proč jsou tato data tak důležitá pro řeč a zpracování přirozeného jazyka?
Algoritmy pro řeč a zpracování přirozeného jazyka potřebují být trénovány s velkými objemy dat ze zdrojů rodilých mluvčích, kteří mají kulturní kontext koncových uživatelů, které reprezentují. Bez těchto dat bude adopce hlasové AI mít vážná omezení.
Kromě toho je třeba při sběru mluvených dat zohlednit také prostředí. Pokud se hlasová AI řešení, která se trénuje, bude používat v autě, jsou tam různé silniční a povětrnostní podmínky, které ovlivňují řeč a potřebují být zohledněny. Tyto jsou komplexní scénáře, kde zkušený partner pro data může pomoci.
Je něco jiného, co byste rádi sdíleli o LXT?
Nejprve bych chtěl poděkovat za příležitost sdílet naši příběh! Chtěl bych zdůraznit, že naše společnost je odhodlána pomoci organizacím všech velikostí uspět se svými iniciativami umělé inteligence. Zaměřili jsme se na dodávání vysoce přizpůsobených dat pro umělou inteligenci společnostem po celém světě po dobu více než 12 let a rádi bychom se spojili s kýmkoli, kdo hledá spolehlivou datovou trubku, aby podpořil své projekty umělé inteligence.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit LXT.












