Intervjuji

Amr Nour-Eldin, podpredsednik tehnologije pri LXT – serija intervjujev

Posodobljeno on Oktober 12, 2023

Amr Nour-Eldin, podpredsednik tehnologije pri LXT. Amr je doktor znanosti. raziskovalec z več kot 16 leti poklicnih izkušenj na področju obdelave govora/zvoka in strojnega učenja v kontekstu samodejnega prepoznavanja govora (ASR), s posebnim poudarkom in praktičnimi izkušnjami v zadnjih letih na tehnikah globokega učenja za konec pretakanja -prepoznavanje govora do konca.

LXT je nastajajoči vodja na področju podatkov o usposabljanju AI za napajanje inteligentne tehnologije za globalne organizacije. V sodelovanju z mednarodno mrežo sodelujočih LXT zbira in označuje podatke na več načinov s hitrostjo, obsegom in agilnostjo, ki jih zahteva podjetje. Njihovo globalno strokovno znanje obsega več kot 145 držav in več kot 1000 jezikov.

Doktorirali ste iz obdelave signalov na univerzi McGill, kaj vas je na začetku zanimalo na tem področju?

Vedno sem si želel študirati inženirstvo in na splošno mi je bilo všeč naravoslovje, vendar sta me bolj pritegnili matematika in fizika. Ugotovil sem, da vedno poskušam ugotoviti, kako narava deluje in kako uporabiti to razumevanje za ustvarjanje tehnologije. Po srednji šoli sem imel možnost iti v medicino in druge poklice, a sem izbral predvsem tehniko, saj je po mojem mnenju predstavljala popolno kombinacijo tako teorije kot uporabe na dveh področjih, ki sta mi najbolj pri srcu: matematiki in fiziki. In potem, ko sem ga izbral, je bilo veliko možnih poti – mehanske, civilne in tako naprej. Vendar sem izrecno izbral elektrotehniko, ker je najbližja in po mojem mnenju najtežja vrsti matematičnih in fizikalnih problemov, ki so se mi vedno zdeli izziv in sem zato bolj užival, poleg tega pa je temelj sodobne tehnologije, ki je vedno vodila jaz.

Znotraj elektrotehnike lahko izbirate med različnimi specializacijami, ki na splošno spadajo pod dva dežnika: telekomunikacije in obdelava signalov ter energetika in elektrotehnika. Ko je prišel čas za izbiro med tema dvema, sem izbral telekomunikacijo in obdelavo signalov, ker je bližje temu, kako naravo opisujemo s fiziko in enačbami. Govorite o signalih, ne glede na to, ali gre za zvok, slike ali video; razumevanje, kako komuniciramo in kaj zaznavajo naši čuti, ter kako matematično predstaviti te informacije na način, ki nam omogoča, da to znanje uporabimo za ustvarjanje in izboljšanje tehnologije.

Ali lahko razpravljate o svojih raziskavah na univerzi McGill o informacijsko-teoretičnem vidiku umetne razširitve pasovne širine (BWE)?

Po končanem diplomskem študiju sem se želel še naprej akademsko ukvarjati s področjem obdelave signalov. Po enem letu študija fotonike v okviru magistrskega študija fizike sem se odločil, da se vrnem na inženirstvo in nadaljujem z magisterijem iz obdelave zvočnih in govornih signalov, s poudarkom na prepoznavanju govora. Ko je prišel čas za doktorat, sem želel nekoliko razširiti svoje področje na splošno obdelavo zvoka in govora ter na tesno povezani področji strojnega učenja in teorije informacij, namesto da bi se osredotočil le na aplikacijo za prepoznavanje govora.

Vozilo za moj doktorat je bila razširitev pasovne širine ozkopasovnega govora. Ozkopasovni govor se nanaša na običajni telefonski govor. Frekvenčna vsebina govora sega do okoli 20 kilohercev, vendar je večina informacijske vsebine skoncentrirana le do 4 kilohercev. Razširitev pasovne širine se nanaša na umetno razširitev govorne vsebine od 3.4 kiloherca, kar je zgornja frekvenca v običajni telefoniji, do nad tem, do osem kilohercev ali več. Za boljšo rekonstrukcijo te manjkajoče visokofrekvenčne vsebine glede na razpoložljivo ozkopasovno vsebino je treba najprej kvantificirati medsebojne informacije med govorno vsebino v dveh frekvenčnih pasovih, nato pa te informacije uporabiti za usposabljanje modela, ki se nauči te skupne informacije; model, ki ga je, ko je enkrat usposobljen, mogoče uporabiti za generiranje visokopasovne vsebine, če je podana samo ozkopasovni govor, in kaj se je model naučil o razmerju med tem razpoložljivim ozkopasovnim govorom in manjkajočo visokopasovno vsebino. Kvantificiranje in predstavljanje te skupne »medsebojne informacije« je tisto, kjer nastopi teorija informacij. Teorija informacij je študija kvantificiranja in predstavljanja informacij v katerem koli signalu. Moja raziskava je bila torej vključevanje informacijske teorije za izboljšanje umetne razširitve pasovne širine govora. Kot tak je bil moj doktorat bolj interdisciplinarna raziskovalna dejavnost, kjer sem kombiniral obdelavo signalov s teorijo informacij in strojnim učenjem.

Več kot 16 let ste bili glavni strokovnjak za govor pri družbi Nuance Communications, ki je zdaj del Microsofta, kaj so bili vaši ključni zaključki iz te izkušnje?

Z mojega vidika je bila najpomembnejša prednost ta, da sem vedno delal na najsodobnejših, vrhunskih tehnikah obdelave signalov in strojnega učenja ter uporabil to tehnologijo v aplikacijah v resničnem svetu. Dobil sem priložnost uporabiti te tehnike za pogovorne izdelke AI na več področjih. Te domene so med drugim obsegale podjetja, zdravstvo, avtomobilizem in mobilnost. Nekatere posebne aplikacije so vključevale virtualne pomočnike, interaktivni glasovni odziv, glasovno pošto v besedilo in druge, pri katerih sta ustrezna predstavitev in prepis ključnega pomena, na primer v zdravstvu pri interakcijah med zdravnikom in bolnikom. V teh 16 letih sem imel srečo, da sem bil iz prve roke priča in bil del evolucije pogovorne umetne inteligence, od dni statističnega modeliranja z uporabo skritih markovskih modelov, prek postopnega prevzema globokega učenja, do zdaj, ko se globoko učenje širi in prevladuje v skoraj vseh vidike umetne inteligence, vključno z generativno umetno inteligenco ter tradicionalno napovedno ali diskriminativno umetno inteligenco. Druga ključna ugotovitev te izkušnje je ključna vloga, ki jo imajo podatki prek količine in kakovosti kot ključno gonilo zmogljivosti in učinkovitosti modela AI.

Objavili ste ducat prispevkov, tudi v tako priznanih publikacijah, kot je IEEE. Kateri je po vašem mnenju najbolj prelomen prispevek, ki ste ga izdali, in zakaj je bil pomemben?

Najbolj vpliven, po številu citatov glede na Google Scholar, bi bil članek iz leta 2008 z naslovom "Razširitev pasovne širine ozkopasovnega govora na podlagi mel-frekvenčnega cepstralnega koeficienta”. Na visoki ravni je poudarek tega prispevka na tem, kako rekonstruirati govorno vsebino z uporabo predstavitve funkcij, ki se pogosto uporablja na področju avtomatskega prepoznavanja govora (ASR), mel-frekvenčnih kepstralnih koeficientov.

Vendar pa je po mojem mnenju bolj inovativen članek z drugim največ citati, dokument iz leta 2011 z naslovom "Na pomnilniku temelječ približek ogrodja modela Gaussove mešanice za razširitev pasovne širine ozkopasovnega govora“. V tem delu sem predlagal novo tehniko statističnega modeliranja, ki vključuje časovne informacije v govoru. Prednost te tehnike je, da omogoča modeliranje dolgoročnih informacij v govoru z minimalno dodatno kompleksnostjo in na način, ki še vedno omogoča generiranje širokopasovnega govora v pretočnem ali realnem času.

Junija 2023 ste bili zaposlen kot podpredsednik tehnologije pri LXT, kaj te je pritegnilo na tem položaju?

V svojih akademskih in poklicnih izkušnjah pred LXT sem vedno delal neposredno s podatki. Pravzaprav, kot sem že omenil, je bil eden ključnih zaključkov mojega dela z znanostjo o govoru in strojnim učenjem ključna vloga podatkov v življenjskem ciklu modela umetne inteligence. Imeti dovolj kakovostnih podatkov v pravem formatu je bilo in je še vedno bistvenega pomena za uspeh najsodobnejše umetne inteligence, ki temelji na globokem učenju. Tako sem imel srečo, ko sem bil na stopnji svoje kariere, ko sem iskal okolje, podobno zagonskemu, kjer bi se lahko učil, razširil svoje spretnosti in izkoristil svoj govor ter izkušnje z umetno inteligenco, da bi imel največji učinek. imeti možnost pridružiti se LXT. Bilo je popolno. Ne samo, da je LXT ponudnik podatkov o umetni inteligenci, ki raste z impresivno in dosledno hitrostjo, ampak sem ga videl tudi kot na popolni stopnji v smislu rasti znanja in izkušenj z umetno inteligenco ter velikosti in raznolikosti strank in s tem v umetni inteligenci. in tipi podatkov AI. Veselil sem se priložnosti, da sem se pridružil in pomagal na poti rasti; imeti velik vpliv s predstavitvijo perspektive končnega uporabnika podatkov, potem ko je bil vsa ta leta uporabnik podatkovnih znanstvenikov AI.

Kako izgleda vaš povprečen dan v LXT?

Moj povprečen dan se začne z raziskovanjem najnovejših raziskav o eni ali drugi temi, ki se je v zadnjem času osredotočala na generativno umetno inteligenco, in kako lahko to uporabimo za potrebe naših strank. Na srečo imam odlično ekipo, ki je zelo spretna pri ustvarjanju in prilagajanju rešitev pogosto specializiranim potrebam naših strank po podatkih umetne inteligence. Zato tesno sodelujem z njimi, da določim to agendo.

Tu je seveda tudi strateško letno in četrtletno načrtovanje ter razčlenitev strateških ciljev na cilje posamezne ekipe in spremljanje razvoja dogodkov v skladu s temi načrti. Kar zadeva razvoj funkcij, ki ga izvajamo, imamo na splošno dve tehnološki poti. Ena je zagotoviti, da imamo ustrezne dele za zagotavljanje najboljših rezultatov naših trenutnih in novih prihodnjih projektov. Druga pot je izboljšanje in razširitev naših tehnoloških zmogljivosti s poudarkom na vključevanju strojnega učenja vanje.

Ali lahko razpravljate o vrstah algoritmov strojnega učenja, s katerimi delate pri LXT?

Rešitve umetne inteligence spreminjajo podjetja v vseh panogah in v LXT smo počaščeni, da lahko zagotovimo visokokakovostne podatke za usposabljanje algoritmov strojnega učenja, ki jih poganjajo. Naše stranke delajo na širokem naboru aplikacij, vključno z obogateno in navidezno resničnostjo, računalniškim vidom, pogovorno umetno inteligenco, generativno umetno inteligenco, ustreznostjo iskanja ter obdelavo govora in naravnega jezika (NLP), med drugim. Predani smo poganjanju algoritmov in tehnologij strojnega učenja prihodnosti z ustvarjanjem in izboljšavo podatkov v vseh jezikih, kulturah in modalitetah.

Interno vključujemo tudi strojno učenje za izboljšanje in optimizacijo naših notranjih procesov, od avtomatizacije potrjevanja kakovosti podatkov do omogočanja modela označevanja s človekom v zanki v vseh modalitetah podatkov, na katerih delamo.

Obdelava govora in zvoka se hitro približuje popolnosti, ko gre za angleščino in še posebej bele moške. Kako dolgo predvidevate, da bo trajalo, dokler ne bodo enaki pogoji za vse jezike, spole in etnične skupine?

To je zapleteno vprašanje in je odvisno od številnih dejavnikov, vključno z gospodarskimi, političnimi, družbenimi in tehnološkimi, med drugim. Jasno pa je, da je razširjenost angleškega jezika tista, ki je umetno inteligenco pripeljala tja, kjer smo zdaj. Torej, da pridemo do mesta, kjer so enaki konkurenčni pogoji, je res odvisno od hitrosti, s katero na spletu raste zastopanost podatkov iz različnih etničnih skupin in populacij, hitrost, s katero raste, pa je tisto, kar bo odločilo, kdaj bomo tja prišli.

Vendar pa lahko LXT in podobna podjetja močno prispevajo k temu, da nas usmerijo k bolj enakim konkurenčnim pogojem. Dokler bodo podatki za manj dobro zastopane jezike, spole in etnične skupine težko dostopni ali preprosto niso na voljo, bodo te spremembe prihajale počasneje. Vendar poskušamo opraviti svoj del. S pokritostjo za več kot 1,000 jezikovnih območij in izkušnjami v 145 državah LXT pomaga omogočiti dostop do več jezikovnih podatkov.

Kakšna je vaša vizija, kako lahko LXT pospeši prizadevanja AI za različne stranke?

Naš cilj pri LXT je zagotoviti podatkovne rešitve, ki omogočajo učinkovit, natančen in hitrejši razvoj AI. Z našimi 12-letnimi izkušnjami v podatkovnem prostoru umetne inteligence nismo le pridobili obsežnega znanja in izkušenj o potrebah strank v smislu vseh vidikov, povezanih s podatki, ampak smo tudi nenehno izpopolnjevali svoje procese, da bi zagotovili najvišjo kakovostne podatke z najhitrejšim tempom in najboljšimi cenami. Posledično smo zaradi naše neomajne zavezanosti, da našim strankam zagotovimo optimalno kombinacijo kakovosti podatkov AI, učinkovitosti in cen, postali zaupanja vreden podatkovni partner AI, kar je razvidno iz naših stalnih strank, ki se vedno znova vračajo k LXT za svoje vedno- naraščajoče in razvijajoče se potrebe po podatkih umetne inteligence. Moja vizija je utrditi, izboljšati in razširiti ta LXT »MO« na vse modalitete podatkov, s katerimi delamo, kot tudi na vse vrste razvoja umetne inteligence, ki ji zdaj služimo, vključno z generativno umetno inteligenco. Doseganje tega cilja se vrti okoli strateškega širjenja lastnih zmogljivosti strojnega učenja in znanosti o podatkih, tako v smislu tehnologije kot virov.

Hvala za odličen intervju, bralci, ki želite izvedeti več, naj ga obiščejo LXT.

Sorodne teme:Intervju LXT

Up Next

Jeff Kofman, ustanovitelj in izvršni direktor Trint – Interview Series

Ne zamudite

Celina Lee, izvršna direktorica in soustanoviteljica Zindi – Interview Series

Antoine Tardif

Ustanovni partner unite.AI in član Forbesov tehnološki svet, Antoine je a futurist ki je navdušen nad prihodnostjo umetne inteligence in robotike.

Je tudi ustanovitelj Securities.io, spletno mesto, ki se osredotoča na vlaganje v prelomno tehnologijo.

Unite.AI

Amr Nour-Eldin, podpredsednik tehnologije pri LXT – serija intervjujev

Intervjuji

Amr Nour-Eldin, podpredsednik tehnologije pri LXT – serija intervjujev

Kazalo vsebine

Zadnje objave

Unite.AI

Amr Nour-Eldin, podpredsednik tehnologije pri LXT – serija intervjujev

Kazalo vsebine

Morda vam bo všeč

Zadnje objave