Seguici sui social

Amr Nour-Eldin, Vice Presidente della Tecnologia presso LXT – Serie di interviste

interviste

Amr Nour-Eldin, Vice Presidente della Tecnologia presso LXT – Serie di interviste

mm

Amr Nour-Eldin, è il vicepresidente della tecnologia presso LXT. Amr è un dottorato di ricerca. ricercatore con oltre 16 anni di esperienza professionale nei campi dell'elaborazione vocale/audio e dell'apprendimento automatico nel contesto del riconoscimento vocale automatico (ASR), con particolare attenzione ed esperienza pratica negli ultimi anni sulle tecniche di deep learning per lo streaming. Riconoscimento vocale completo.

LXT è un leader emergente nei dati di formazione sull'intelligenza artificiale per potenziare la tecnologia intelligente per le organizzazioni globali. In collaborazione con una rete internazionale di contributori, LXT raccoglie e annota i dati in molteplici modalità con la velocità, la scalabilità e l'agilità richieste dall'azienda. La loro esperienza globale abbraccia più di 145 paesi e oltre 1000 lingue locali.

Hai conseguito un dottorato in elaborazione dei segnali presso la McGill University, cosa ti interessava inizialmente in questo campo?

Ho sempre voluto studiare ingegneria e mi piacevano molto le scienze naturali in generale, ma ero più specificamente attratto da matematica e fisica. Mi ritrovavo sempre a cercare di capire come funziona la natura e come applicare questa conoscenza alla creazione di tecnologia. Dopo il liceo, ho avuto l'opportunità di intraprendere la carriera di medico e altre professioni, ma ho scelto specificamente ingegneria perché rappresentava la combinazione perfetta, a mio avviso, tra teoria e applicazione nei due campi a me più cari: matematica e fisica. E poi, una volta scelta, c'erano molti percorsi possibili: meccanica, civile e così via. Ma ho scelto specificamente ingegneria elettrica perché è la più vicina, e la più difficile a mio avviso, al tipo di problemi di matematica e fisica che ho sempre trovato stimolanti e quindi più apprezzati, oltre a essere il fondamento della tecnologia moderna che mi ha sempre motivato.

Nell'ambito dell'ingegneria elettrica, ci sono diverse specializzazioni tra cui scegliere, che generalmente rientrano in due categorie: telecomunicazioni ed elaborazione dei segnali, e ingegneria elettrica ed energetica. Quando è arrivato il momento di scegliere tra queste due, ho scelto telecomunicazioni ed elaborazione dei segnali perché sono più vicine al modo in cui descriviamo la natura attraverso la fisica e le equazioni. Stiamo parlando di segnali, che siano audio, immagini o video; di capire come comunichiamo e cosa percepiscono i nostri sensi, e di come rappresentare matematicamente tali informazioni in un modo che ci consenta di sfruttare tale conoscenza per creare e migliorare la tecnologia.

Potresti parlare della tua ricerca alla McGill University sull'aspetto teorico dell'informazione dell'estensione artificiale della larghezza di banda (BWE)?

Dopo aver conseguito la laurea triennale, ho voluto continuare a studiare il campo dell'elaborazione del segnale a livello accademico. Dopo un anno di studio in Fotonica nell'ambito di una laurea magistrale in Fisica, ho deciso di tornare a Ingegneria per conseguire la laurea magistrale in elaborazione dei segnali audio e vocali, concentrandomi sul riconoscimento vocale. Quando è arrivato il momento di conseguire il dottorato, ho voluto ampliare un po' il mio campo di studi, concentrandomi sull'elaborazione audio e vocale in generale e sui campi strettamente correlati dell'apprendimento automatico e della teoria dell'informazione, piuttosto che concentrarmi esclusivamente sulle applicazioni del riconoscimento vocale.

Il veicolo del mio dottorato è stata l'estensione della larghezza di banda del parlato a banda stretta. Il parlato a banda stretta si riferisce al parlato della telefonia convenzionale. Il contenuto frequenziale del parlato si estende fino a circa 20 kilohertz, ma la maggior parte del contenuto informativo è concentrato solo fino a 4 kilohertz. L'estensione della larghezza di banda si riferisce all'estensione artificiale del contenuto vocale da 3.4 kilohertz, che è il limite di frequenza superiore nella telefonia convenzionale, a oltre, fino a XNUMX kilohertz o più. Per ricostruire meglio quel contenuto a frequenza più alta mancante dato solo il contenuto a banda stretta disponibile, è necessario prima quantificare le informazioni reciproche tra il contenuto vocale nelle due bande di frequenza, quindi utilizzare tali informazioni per addestrare un modello che apprende quell'informazione condivisa; un modello che, una volta addestrato, può quindi essere utilizzato per generare contenuto in banda alta dato solo il parlato a banda stretta e ciò che il modello ha appreso sulla relazione tra il parlato a banda stretta disponibile e il contenuto in banda alta mancante. Quantificare e rappresentare quella “reciproca informazione” condivisa è il punto in cui entra in gioco la teoria dell’informazione. La teoria dell’informazione è lo studio sulla quantificazione e rappresentazione delle informazioni in qualsiasi segnale. Quindi la mia ricerca riguardava l'integrazione della teoria dell'informazione per migliorare l'estensione della larghezza di banda artificiale del parlato. Pertanto, il mio dottorato è stato più un'attività di ricerca interdisciplinare in cui ho combinato l'elaborazione del segnale con la teoria dell'informazione e l'apprendimento automatico.

Sei stato Principal Speech Scientist presso Nuance Communications, ora parte di Microsoft, per oltre 16 anni. Quali sono stati alcuni dei principali insegnamenti tratti da questa esperienza?

Dal mio punto di vista, il vantaggio più importante è stato il fatto che lavoravo sempre su tecniche all'avanguardia e all'avanguardia nell'elaborazione del segnale e nell'apprendimento automatico e applicavo tale tecnologia ad applicazioni del mondo reale. Ho avuto la possibilità di applicare queste tecniche ai prodotti di intelligenza artificiale conversazionale in più domini. Questi ambiti spaziavano, tra gli altri, da quello aziendale a quello sanitario, automobilistico e della mobilità. Alcune delle applicazioni specifiche includevano assistenti virtuali, risposta vocale interattiva, messaggio vocale in testo e altre in cui la corretta rappresentazione e trascrizione è fondamentale, come nel settore sanitario con le interazioni medico/paziente. Nel corso di questi 16 anni, ho avuto la fortuna di assistere in prima persona e di far parte dell'evoluzione dell'intelligenza artificiale conversazionale, dai tempi della modellazione statistica utilizzando modelli Markov nascosti, attraverso la graduale acquisizione del Deep Learning, fino ad oggi dove il deep learning prolifera e domina quasi tutto aspetti dell’intelligenza artificiale, compresa l’intelligenza artificiale generativa e l’intelligenza artificiale tradizionale predittiva o discriminativa. Un altro aspetto fondamentale di questa esperienza è il ruolo cruciale che i dati svolgono, attraverso la quantità e la qualità, come motore chiave delle capacità e delle prestazioni del modello di intelligenza artificiale.

Hai pubblicato una dozzina di articoli, inclusi pubblicazioni acclamate come IEEE. Secondo te, qual è il documento più innovativo che hai pubblicato e perché è stato importante?

Quello di maggior impatto, per numero di citazioni secondo Google Scholar, sarebbe un articolo del 2008 intitolato “Estensione della larghezza di banda basata sul coefficiente cepstral della frequenza Mel del parlato a banda stretta”. Ad alto livello, l'obiettivo di questo articolo è su come ricostruire il contenuto del parlato utilizzando una rappresentazione di caratteristiche ampiamente utilizzata nel campo del riconoscimento vocale automatico (ASR), i coefficienti cepstral a frequenza mel.

Tuttavia, a mio avviso, l’articolo più innovativo è quello con il secondo maggior numero di citazioni, un articolo del 2011 intitolato “Approssimazione basata sulla memoria della struttura del modello di miscela gaussiana per l'estensione della larghezza di banda del parlato a banda stretta“. In quel lavoro ho proposto una nuova tecnica di modellazione statistica che incorpora le informazioni temporali nel parlato. Il vantaggio di questa tecnica è che consente di modellare informazioni a lungo termine nel parlato con una complessità aggiuntiva minima e in un modo che consente comunque anche la generazione di parlato a banda larga in streaming o in tempo reale.

Nel giugno 2023 eri reclutato come Vice Presidente della Tecnologia presso LXT, cosa ti ha attratto verso questa posizione?

Durante la mia esperienza accademica e professionale precedente alla LXT, ho sempre lavorato direttamente con i dati. In effetti, come ho notato in precedenza, uno degli insegnamenti fondamentali che ho tratto dal mio lavoro con le scienze del linguaggio e l’apprendimento automatico è stato il ruolo cruciale svolto dai dati nel ciclo di vita del modello di intelligenza artificiale. Disporre di dati di qualità sufficienti nel formato giusto era, e continua ad essere, vitale per il successo dell’intelligenza artificiale all’avanguardia basata sul deep learning. Pertanto, quando mi sono trovato in una fase della mia carriera in cui cercavo un ambiente simile a una startup in cui avrei potuto imparare, ampliare le mie competenze e sfruttare la mia esperienza vocale e di intelligenza artificiale per avere il massimo impatto, sono stato fortunato per avere l'opportunità di unirsi a LXT. Era la soluzione perfetta. Non solo LXT è un fornitore di dati AI che sta crescendo a un ritmo impressionante e costante, ma lo vedevo anche nella fase perfetta in termini di crescita del know-how AI, nonché delle dimensioni e della diversità dei clienti, e quindi dell'AI. e tipi di dati AI. Ho apprezzato l'opportunità di unirmi e aiutare nel suo percorso di crescita; avere un grande impatto portando la prospettiva di un utente finale di dati dopo essere stato un utente di data scientist AI per tutti quegli anni.

Come si svolge la tua giornata tipo alla LXT?

La mia giornata tipo inizia con l'analisi delle ultime ricerche su un argomento o un altro, che ultimamente si è concentrato sull'intelligenza artificiale generativa, e su come possiamo applicarla alle esigenze dei nostri clienti. Fortunatamente, ho un team eccellente, molto abile nel creare e personalizzare soluzioni in base alle esigenze, spesso specialistiche, dei dati di intelligenza artificiale dei nostri clienti. Quindi, lavoro a stretto contatto con loro per definire questo programma.

Naturalmente, c'è anche la pianificazione strategica annuale e trimestrale, la suddivisione degli obiettivi strategici in obiettivi individuali di team e il mantenimento del passo con gli sviluppi lungo tali piani. Per quanto riguarda lo sviluppo delle funzionalità che stiamo portando avanti, generalmente seguiamo due percorsi tecnologici. Uno è assicurarci di avere gli elementi giusti per ottenere i migliori risultati nei nostri progetti attuali e in quelli futuri. L'altro percorso consiste nel migliorare ed espandere le nostre capacità tecnologiche, con particolare attenzione all'integrazione del machine learning.

Potresti parlare dei tipi di algoritmi di apprendimento automatico su cui lavori a LXT?

Le soluzioni di intelligenza artificiale stanno trasformando le aziende in tutti i settori e noi di LXT siamo onorati di fornire dati di alta qualità per addestrare gli algoritmi di apprendimento automatico che le alimentano. I nostri clienti stanno lavorando su un'ampia gamma di applicazioni, tra cui realtà aumentata e virtuale, visione artificiale, intelligenza artificiale conversazionale, intelligenza artificiale generativa, pertinenza della ricerca ed elaborazione vocale e del linguaggio naturale (NLP), tra gli altri. Ci dedichiamo a potenziare gli algoritmi e le tecnologie di apprendimento automatico del futuro attraverso la generazione e il miglioramento dei dati in ogni lingua, cultura e modalità.

Internamente, stiamo anche integrando l'apprendimento automatico per migliorare e ottimizzare i nostri processi interni, che vanno dall'automazione della convalida della qualità dei dati all'abilitazione di un modello di etichettatura con coinvolgimento umano in tutte le modalità di dati su cui lavoriamo.

L’elaborazione vocale e audio si sta rapidamente avvicinando alla perfezione quando si tratta di inglesi e in particolare di uomini bianchi. Quanto tempo prevedi che passerà prima che si raggiungano condizioni di parità tra tutte le lingue, i generi e le etnie?

Si tratta di una questione complessa, che dipende da diversi fattori, tra cui quelli economici, politici, sociali e tecnologici. Ma ciò che è chiaro è che la diffusione della lingua inglese è ciò che ha portato l'intelligenza artificiale al punto in cui ci troviamo ora. Quindi, raggiungere un livello di parità di condizioni dipenderà in realtà dalla velocità con cui crescerà online la rappresentazione dei dati provenienti da diverse etnie e popolazioni, e il ritmo con cui crescerà determinerà quando ci arriveremo.

Tuttavia, LXT e società simili possono avere un grande aiuto nel guidarci verso condizioni di maggiore parità. Finché i dati relativi alle lingue, ai generi e alle etnie meno rappresentate saranno difficilmente accessibili o semplicemente non disponibili, il cambiamento avverrà più lentamente. Ma stiamo cercando di fare la nostra parte. Con una copertura di oltre 1,000 lingue locali e un'esperienza in 145 paesi, LXT aiuta a rendere possibile l'accesso a più dati linguistici.

Qual è la tua visione su come LXT può accelerare gli sforzi di intelligenza artificiale per diversi clienti?

Il nostro obiettivo in LXT è fornire soluzioni dati che consentano uno sviluppo dell'intelligenza artificiale efficiente, accurato e rapido. Grazie ai nostri 12 anni di esperienza nel settore dei dati AI, non solo abbiamo accumulato un vasto know-how sulle esigenze dei clienti in termini di tutti gli aspetti relativi ai dati, ma abbiamo anche costantemente perfezionato i nostri processi per fornire dati della massima qualità al ritmo più rapido e al miglior prezzo. Di conseguenza, grazie al nostro costante impegno nel fornire ai nostri clienti la combinazione ottimale di qualità, efficienza e prezzo dei dati AI, siamo diventati un partner affidabile per i dati AI, come dimostrano i nostri clienti abituali che continuano a rivolgersi a LXT per le loro esigenze di dati AI in continua crescita ed evoluzione. La mia visione è quella di consolidare, migliorare ed estendere il "MO" di LXT a tutte le modalità di dati su cui lavoriamo, nonché a tutti i tipi di sviluppo AI che attualmente serviamo, inclusa l'IA generativa. Il raggiungimento di questo obiettivo ruota attorno all'espansione strategica delle nostre capacità di apprendimento automatico e data science, sia in termini di tecnologia che di risorse.

Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare LXT.

Antoine è un leader visionario e socio fondatore di Unite.AI, spinto da una passione incrollabile per la definizione e la promozione del futuro dell'intelligenza artificiale e della robotica. Imprenditore seriale, ritiene che l'intelligenza artificiale sarà dirompente per la società quanto l'elettricità, e spesso viene colto a delirare sul potenziale delle tecnologie dirompenti e dell'AGI.

Come futurista, si dedica a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Titoli.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e rimodellando interi settori.