Povežite se s nama

Intervjui

Amr Nour-Eldin, potpredsjednik tehnologije u LXT – serija intervjua

mm

Amr Nour-Eldin, potpredsjednik je tehnologije u LXT. Amr je doktor znanosti. znanstveni znanstvenik s više od 16 godina profesionalnog iskustva u područjima obrade govora/audija i strojnog učenja u kontekstu automatskog prepoznavanja govora (ASR), s posebnim fokusom i praktičnim iskustvom posljednjih godina na tehnikama dubinskog učenja za kraj strujanja -prepoznavanje govora do kraja.

LXT je lider u usponu u podacima za obuku AI za pokretanje inteligentne tehnologije za globalne organizacije. U partnerstvu s međunarodnom mrežom suradnika, LXT prikuplja i označava podatke na više modaliteta brzinom, razmjerom i agilnošću koju poduzeće zahtijeva. Njihova globalna stručnost obuhvaća više od 145 zemalja i više od 1000 jezika.

Doktorirali ste obradu signala na Sveučilištu McGill, što vas je u početku zanimalo u ovom području?

Oduvijek sam želio studirati inženjerstvo i jako sam volio prirodne znanosti općenito, ali su me više privlačile matematika i fizika. Uvijek sam pokušavao shvatiti kako priroda funkcionira i kako to razumijevanje primijeniti na stvaranje tehnologije. Nakon srednje škole imao sam priliku krenuti u medicinu i druga zanimanja, ali sam posebno odabrao inženjerstvo jer je predstavljalo savršenu kombinaciju teorije i primjene u dva područja koja su mi bila najbliža srcu: matematici i fizici. A kad sam ga odabrao, bilo je mnogo potencijalnih putova – mehaničkih, civilnih itd. Ali posebno sam odabrao elektrotehniku ​​jer je najbliža, i po mom mišljenju najteža, vrsti problema iz matematike i fizike koji su mi uvijek bili izazovni i stoga sam više uživao, kao i temelj moderne tehnologije koja je oduvijek pokretala mi.

Unutar elektrotehnike postoje različite specijalizacije koje možete izabrati, a koje općenito spadaju pod dva kišobrana: telekomunikacije i obrada signala te energetika i elektrotehnika. Kad je došlo vrijeme da biram između to dvoje, odabrao sam telekom i obradu signala jer je to bliže načinu na koji opisujemo prirodu kroz fiziku i jednadžbe. Govorite o signalima, bilo da se radi o zvuku, slikama ili videu; razumijevanje načina na koji komuniciramo i što naša osjetila percipiraju, te kako matematički predstaviti te informacije na način koji nam omogućuje da to znanje iskoristimo za stvaranje i poboljšanje tehnologije.

Možete li govoriti o svom istraživanju na Sveučilištu McGill o informacijsko-teoretskom aspektu umjetnog proširenja propusnosti (BWE)?

Nakon što sam završio diplomu, želio sam nastaviti akademski se baviti obradom signala. Nakon jedne godine studija fotonike u sklopu magisterija fizike, odlučio sam se vratiti na inženjerstvo kako bih nastavio magisterij obrade audio i govornih signala, s fokusom na prepoznavanje govora. Kad je došlo vrijeme da radim doktorat, htio sam malo proširiti svoje područje na opću obradu zvuka i govora, kao i na blisko povezana polja strojnog učenja i teorije informacija, umjesto da se fokusiram samo na aplikaciju za prepoznavanje govora.

Vozilo za moj doktorat bilo je proširenje propusnosti uskopojasnog govora. Uskopojasni govor odnosi se na govor konvencionalne telefonije. Frekvencijski sadržaj govora proteže se do oko 20 kiloherca, ali je većina informacijskog sadržaja koncentrirana do samo 4 kiloherca. Proširenje propusnosti odnosi se na umjetno proširenje govornog sadržaja od 3.4 kiloherca, što je gornja granica frekvencije u konvencionalnoj telefoniji, do iznad toga, do osam kiloherca ili više. Kako bi se bolje rekonstruirao taj nedostajući sadržaj više frekvencije s obzirom samo na dostupan uskopojasni sadržaj, prvo je potrebno kvantificirati uzajamne informacije između govornog sadržaja u dva frekvencijska pojasa, a zatim koristiti te informacije za treniranje modela koji uči te zajedničke informacije; model koji se, jednom obučen, može koristiti za generiranje visokopojasnog sadržaja uz samo uskopojasni govor i ono što je model naučio o odnosu između tog dostupnog uskopojasnog govora i visokopojasnog sadržaja koji nedostaje. Kvantificiranje i predstavljanje te zajedničke "međusobne informacije" mjesto je gdje dolazi teorija informacija. Teorija informacija je studija o kvantificiranju i predstavljanju informacija u bilo kojem signalu. Dakle, moje se istraživanje odnosilo na uključivanje teorije informacija kako bi se poboljšalo umjetno proširenje propusnosti govora. Kao takav, moj doktorat bio je više interdisciplinarna istraživačka aktivnost u kojoj sam kombinirao obradu signala s teorijom informacija i strojnim učenjem.

Bili ste glavni govorni stručnjak u tvrtki Nuance Communications, koja je sada dio Microsofta, više od 16 godina, koji su neki od vaših ključnih zaključaka iz ovog iskustva?

Iz moje perspektive, najvažnija korist bila je to što sam uvijek radio na najsuvremenijim, vrhunskim tehnikama u obradi signala i strojnom učenju te primjenjivao tu tehnologiju na aplikacije u stvarnom svijetu. Dobio sam priliku primijeniti te tehnike na konverzacijske AI proizvode u više domena. Te su se domene između ostalog kretale od poduzetništva do zdravstvene zaštite, automobilske industrije i mobilnosti. Neke od specifičnih aplikacija uključivale su virtualne pomoćnike, interaktivni glasovni odgovor, govornu poštu u tekst i druge gdje su pravilno predstavljanje i transkripcija kritični, kao što je zdravstvena skrb s interakcijom između liječnika i pacijenta. Tijekom tih 16 godina imao sam sreću iz prve ruke svjedočiti i biti dio evolucije AI-ja za razgovor, od dana statističkog modeliranja pomoću skrivenih Markovljevih modela, preko postupnog preuzimanja dubokog učenja, do sada gdje se duboko učenje širi i dominira gotovo svim aspekte umjetne inteligencije, uključujući generativnu umjetnu inteligenciju kao i tradicionalnu prediktivnu ili diskriminativnu umjetnu inteligenciju. Još jedan ključni zaključak iz tog iskustva je ključna uloga koju podaci igraju, kroz kvantitetu i kvalitetu, kao ključni pokretač sposobnosti i izvedbe AI modela.

Objavili ste desetak radova, uključujući i hvaljene publikacije kao što je IEEE. Koji je po Vama najrevolucionarniji rad koji ste objavili i zašto je bio važan?

Najutjecajniji, po broju citata prema Google Scholar-u, bio bi rad iz 2008. pod naslovom “Proširenje propusnosti uskopojasnog govora temeljeno na Mel-frekvencijskom Cepstralnom koeficijentu”. Na visokoj razini, fokus ovog rada je na tome kako rekonstruirati govorni sadržaj korištenjem predstavljanja značajki koje se široko koriste u području automatskog prepoznavanja govora (ASR), mel-frekvencijskih kepstralnih koeficijenata.

Međutim, inovativniji rad po mom mišljenju je rad s drugim najvećim brojem citata, rad iz 2011. pod naslovom "Memorijska aproksimacija okvira modela Gaussove mješavine za proširenje pojasne širine uskopojasnog govora“. U tom sam radu predložio novu tehniku ​​statističkog modeliranja koja uključuje vremenske informacije u govoru. Prednost te tehnike je u tome što omogućuje modeliranje dugoročnih informacija u govoru s minimalnom dodatnom složenošću i na način koji još uvijek omogućuje generiranje širokopojasnog govora u strujanju ili u stvarnom vremenu.

U lipnju 2023. bili ste zaposlen kao potpredsjednik tehnologije u LXT-u, što vas je privuklo ovoj poziciji?

Kroz svoje akademsko i profesionalno iskustvo prije LXT-a uvijek sam radio izravno s podacima. Zapravo, kao što sam ranije napomenuo, jedan ključni zaključak za mene iz mog rada sa znanošću o govoru i strojnim učenjem bila je ključna uloga podataka u životnom ciklusu modela umjetne inteligencije. Imati dovoljno kvalitetnih podataka u pravom formatu bilo je i ostaje ključno za uspjeh najsuvremenije umjetne inteligencije temeljene na dubinskom učenju. Kao takav, kad sam se našao u fazi svoje karijere u kojoj sam tražio okruženje nalik startupu u kojem bih mogao učiti, proširiti svoje vještine, kao i iskoristiti svoje govorno i umjetno iskustvo kako bih imao najveći učinak, bio sam sretan imati priliku pridružiti se LXT-u. Bio je savršen. Ne samo da je LXT pružatelj podataka AI koji raste impresivnom i dosljednom brzinom, već sam ga također vidio kao u savršenoj fazi u smislu rasta AI know-howa, kao i veličine i raznolikosti klijenata, a time i AI. i AI vrste podataka. Uživao sam u prilici da se pridružim i pomognem na putu rasta; imati veliki utjecaj donoseći perspektivu krajnjeg korisnika podataka nakon što je sve te godine bio korisnik podataka AI znanstvenik.

Kako izgleda vaš prosječan dan u LXT-u?

Moj prosječni dan počinje proučavanjem najnovijih istraživanja o jednoj ili drugoj temi, koja su u posljednje vrijeme usredotočena na generativnu umjetnu inteligenciju, i kako to možemo primijeniti na potrebe naših kupaca. Srećom, imam izvrstan tim koji je vrlo vješt u stvaranju i prilagođavanju rješenja za često specijalizirane potrebe naših klijenata za podacima AI-ja. Dakle, blisko surađujem s njima kako bih odredio taj program.

Tu je, naravno, i strateško godišnje i tromjesečno planiranje te rastavljanje strateških ciljeva u ciljeve pojedinačnih timova i praćenje razvoja događaja u skladu s tim planovima. Što se tiče razvoja značajki koje radimo, općenito imamo dva tehnološka pravca. Jedan je da osiguramo da imamo odgovarajuće dijelove za postizanje najboljih rezultata na našim trenutnim i novim nadolazećim projektima. Drugi smjer je poboljšanje i proširenje naših tehnoloških mogućnosti, s fokusom na uključivanje strojnog učenja u njih.

Možete li razgovarati o vrstama algoritama strojnog učenja na kojima radite u LXT-u?

Rješenja umjetne inteligencije transformiraju poduzeća u svim industrijama, a nama u LXT-u čast je pružiti visokokvalitetne podatke za obuku algoritama strojnog učenja koji ih pokreću. Naši klijenti rade na širokom rasponu aplikacija, uključujući proširenu i virtualnu stvarnost, računalni vid, razgovornu umjetnu inteligenciju, generativnu umjetnu inteligenciju, relevantnost pretraživanja i obradu govora i prirodnog jezika (NLP), između ostalog. Posvećeni smo osnaživanju algoritama i tehnologija strojnog učenja budućnosti kroz generiranje i poboljšanje podataka u svim jezicima, kulturama i modalitetima.

Interno, također uključujemo strojno učenje kako bismo poboljšali i optimizirali svoje interne procese, u rasponu od automatizacije provjere kvalitete podataka do omogućavanja modela označavanja čovjeka u petlji u svim modalitetima podataka na kojima radimo.

Obrada govora i zvuka brzo se približava savršenstvu kada su u pitanju Englezi, a posebno bijelci. Koliko očekujete da će proći dok se ne uspostavi jednaka igra za sve jezike, spolove i etničke pripadnosti?

Ovo je komplicirano pitanje i ovisi o nizu čimbenika, uključujući ekonomske, političke, socijalne i tehnološke, između ostalih. Ali ono što je jasno jest da je prevalencija engleskog jezika ono što je dovelo AI do mjesta gdje smo sada. Dakle, doći do mjesta gdje su jednaki uvjeti stvarno ovisi o brzini kojom reprezentacija podataka iz različitih etničkih skupina i populacija raste online, a brzina kojom raste je ono što će odrediti kada stignemo tamo.

Međutim, LXT i slične tvrtke mogu imati veliku ulogu u usmjeravanju nas prema ravnopravnijim uvjetima. Sve dok je podacima za manje zastupljene jezike, spolove i etničke pripadnosti teško pristupiti ili jednostavno nisu dostupni, ta će promjena dolaziti sporije. Ali mi pokušavamo odraditi svoj dio posla. S pokrivenošću za više od 1,000 jezičnih lokaliteta i iskustvom u 145 zemalja, LXT pomaže omogućiti pristup više jezičnih podataka.

Koja je vaša vizija o tome kako LXT može ubrzati napore AI za različite klijente?

Naš cilj u LXT-u je pružiti podatkovna rješenja koja omogućuju učinkovit, točan i brži razvoj umjetne inteligencije. Kroz naše 12 godina iskustva u podatkovnom prostoru umjetne inteligencije, ne samo da smo akumulirali opsežno znanje i iskustvo o potrebama klijenata u pogledu svih aspekata povezanih s podacima, već smo i kontinuirano usavršavali svoje procese kako bismo pružili najviše kvalitetni podaci najbržim tempom i najpovoljnijim cijenama. Slijedom toga, kao rezultat naše postojane predanosti pružanju našim klijentima optimalne kombinacije kvalitete, učinkovitosti i cijena AI podataka, postali smo pouzdani AI podatkovni partner, što je vidljivo iz naših stalnih klijenata koji se stalno vraćaju LXT-u za svoje uvijek- rastućim i evoluirajućim potrebama AI podataka. Moja je vizija zacementirati, poboljšati i proširiti taj LXT "MO" na sve modalitete podataka na kojima radimo kao i na sve vrste razvoja umjetne inteligencije kojima sada služimo, uključujući generativnu umjetnu inteligenciju. Postizanje ovog cilja vrti se oko strateškog proširenja vlastitih sposobnosti strojnog učenja i znanosti o podacima, kako u pogledu tehnologije tako iu pogledu resursa.

Hvala vam na sjajnom intervjuu, čitatelji koji žele saznati više neka ga posjete LXT.

Antoine je vizionarski vođa i partner u osnivanju Unite.AI, vođen nepokolebljivom strašću za oblikovanjem i promicanjem budućnosti umjetne inteligencije i robotike. Kao serijski poduzetnik, on vjeruje da će AI biti razoran za društvo kao i električna energija, i često ga se uhvati kako bjesni o potencijalu disruptivnih tehnologija i AGI-ja.

Kao futurist, posvećen je istraživanju kako će ove inovacije oblikovati naš svijet. Osim toga, on je osnivač Vrijednosni papiri.io, platforma usmjerena na ulaganje u vrhunske tehnologije koje redefiniraju budućnost i preoblikuju cijele sektore.