Seguici sui social

interviste

Amr Nour-Eldin, Vice Presidente della Tecnologia presso LXT – Serie di interviste

mm

Amr Nour-Eldin, è il vicepresidente della tecnologia presso LXT. Amr è un dottorato di ricerca. ricercatore con oltre 16 anni di esperienza professionale nei campi dell'elaborazione vocale/audio e dell'apprendimento automatico nel contesto del riconoscimento vocale automatico (ASR), con particolare attenzione ed esperienza pratica negli ultimi anni sulle tecniche di deep learning per lo streaming. Riconoscimento vocale completo.

LXT è un leader emergente nei dati di formazione sull'intelligenza artificiale per potenziare la tecnologia intelligente per le organizzazioni globali. In collaborazione con una rete internazionale di contributori, LXT raccoglie e annota i dati in molteplici modalità con la velocità, la scalabilità e l'agilità richieste dall'azienda. La loro esperienza globale abbraccia più di 145 paesi e oltre 1000 lingue locali.

Hai conseguito un dottorato in elaborazione dei segnali presso la McGill University, cosa ti interessava inizialmente in questo campo?

Ho sempre desiderato studiare ingegneria e mi piacevano molto le scienze naturali in generale, ma ero attratto più specificamente dalla matematica e dalla fisica. Mi sono ritrovato a cercare sempre di capire come funziona la natura e come applicare quella comprensione per creare tecnologia. Dopo il liceo ho avuto l'opportunità di dedicarmi alla medicina e ad altre professioni, ma ho scelto specificatamente l'ingegneria perché rappresentava a mio avviso la perfetta combinazione tra teoria e applicazione nei due campi più vicini al mio cuore: matematica e fisica. E poi, una volta scelto, c'erano molti possibili percorsi: meccanico, civile e così via. Ma ho scelto appositamente l'ingegneria elettrica perché è la più vicina, e a mio avviso la più difficile, al tipo di problemi di matematica e fisica che ho sempre trovato impegnativi e che, quindi, mi sono piaciuti di più, oltre ad essere il fondamento della tecnologia moderna che ha sempre guidato Me.

All'interno dell'ingegneria elettrica ci sono varie specializzazioni tra cui scegliere, che generalmente rientrano in due ambiti: telecomunicazioni ed elaborazione dei segnali, e quella di energia ed elettrotecnica. Quando è arrivato il momento di scegliere tra questi due, ho scelto le telecomunicazioni e l'elaborazione del segnale perché sono più vicini al modo in cui descriviamo la natura attraverso la fisica e le equazioni. Stai parlando di segnali, siano essi audio, immagini o video; capire come comunichiamo e cosa percepiscono i nostri sensi e come rappresentare matematicamente tali informazioni in un modo che ci consenta di sfruttare tale conoscenza per creare e migliorare la tecnologia.

Potresti parlare della tua ricerca alla McGill University sull'aspetto teorico dell'informazione dell'estensione artificiale della larghezza di banda (BWE)?

Dopo aver terminato la mia laurea, volevo continuare a perseguire accademicamente il campo dell'elaborazione dei segnali. Dopo un anno di studio di Fotonica nell'ambito di un Master in Fisica, ho deciso di tornare ad Ingegneria per conseguire il mio master in Elaborazione dei segnali audio e vocali, concentrandomi sul riconoscimento vocale. Quando è arrivato il momento di fare il mio dottorato di ricerca, ho voluto ampliare un po' il mio campo all'elaborazione generale dell'audio e del parlato, nonché ai campi strettamente correlati dell'apprendimento automatico e della teoria dell'informazione, piuttosto che concentrarmi solo sull'applicazione del riconoscimento vocale.

Il veicolo del mio dottorato è stata l'estensione della larghezza di banda del parlato a banda stretta. Il parlato a banda stretta si riferisce al parlato della telefonia convenzionale. Il contenuto frequenziale del parlato si estende fino a circa 20 kilohertz, ma la maggior parte del contenuto informativo è concentrato solo fino a 4 kilohertz. L'estensione della larghezza di banda si riferisce all'estensione artificiale del contenuto vocale da 3.4 kilohertz, che è il limite di frequenza superiore nella telefonia convenzionale, a oltre, fino a XNUMX kilohertz o più. Per ricostruire meglio quel contenuto a frequenza più alta mancante dato solo il contenuto a banda stretta disponibile, è necessario prima quantificare le informazioni reciproche tra il contenuto vocale nelle due bande di frequenza, quindi utilizzare tali informazioni per addestrare un modello che apprende quell'informazione condivisa; un modello che, una volta addestrato, può quindi essere utilizzato per generare contenuto in banda alta dato solo il parlato a banda stretta e ciò che il modello ha appreso sulla relazione tra il parlato a banda stretta disponibile e il contenuto in banda alta mancante. Quantificare e rappresentare quella “reciproca informazione” condivisa è il punto in cui entra in gioco la teoria dell’informazione. La teoria dell’informazione è lo studio sulla quantificazione e rappresentazione delle informazioni in qualsiasi segnale. Quindi la mia ricerca riguardava l'integrazione della teoria dell'informazione per migliorare l'estensione della larghezza di banda artificiale del parlato. Pertanto, il mio dottorato è stato più un'attività di ricerca interdisciplinare in cui ho combinato l'elaborazione del segnale con la teoria dell'informazione e l'apprendimento automatico.

Sei stato Principal Speech Scientist presso Nuance Communications, ora parte di Microsoft, per oltre 16 anni. Quali sono stati alcuni dei principali insegnamenti tratti da questa esperienza?

Dal mio punto di vista, il vantaggio più importante è stato il fatto che lavoravo sempre su tecniche all'avanguardia e all'avanguardia nell'elaborazione del segnale e nell'apprendimento automatico e applicavo tale tecnologia ad applicazioni del mondo reale. Ho avuto la possibilità di applicare queste tecniche ai prodotti di intelligenza artificiale conversazionale in più domini. Questi ambiti spaziavano, tra gli altri, da quello aziendale a quello sanitario, automobilistico e della mobilità. Alcune delle applicazioni specifiche includevano assistenti virtuali, risposta vocale interattiva, messaggio vocale in testo e altre in cui la corretta rappresentazione e trascrizione è fondamentale, come nel settore sanitario con le interazioni medico/paziente. Nel corso di questi 16 anni, ho avuto la fortuna di assistere in prima persona e di far parte dell'evoluzione dell'intelligenza artificiale conversazionale, dai tempi della modellazione statistica utilizzando modelli Markov nascosti, attraverso la graduale acquisizione del Deep Learning, fino ad oggi dove il deep learning prolifera e domina quasi tutto aspetti dell’intelligenza artificiale, compresa l’intelligenza artificiale generativa e l’intelligenza artificiale tradizionale predittiva o discriminativa. Un altro aspetto fondamentale di questa esperienza è il ruolo cruciale che i dati svolgono, attraverso la quantità e la qualità, come motore chiave delle capacità e delle prestazioni del modello di intelligenza artificiale.

Hai pubblicato una dozzina di articoli, inclusi pubblicazioni acclamate come IEEE. Secondo te, qual è il documento più innovativo che hai pubblicato e perché è stato importante?

Quello di maggior impatto, per numero di citazioni secondo Google Scholar, sarebbe un articolo del 2008 intitolato “Estensione della larghezza di banda basata sul coefficiente cepstral della frequenza Mel del parlato a banda stretta”. Ad alto livello, l'obiettivo di questo articolo è su come ricostruire il contenuto del parlato utilizzando una rappresentazione di caratteristiche ampiamente utilizzata nel campo del riconoscimento vocale automatico (ASR), i coefficienti cepstral a frequenza mel.

Tuttavia, a mio avviso, l’articolo più innovativo è quello con il secondo maggior numero di citazioni, un articolo del 2011 intitolato “Approssimazione basata sulla memoria della struttura del modello di miscela gaussiana per l'estensione della larghezza di banda del parlato a banda stretta“. In quel lavoro ho proposto una nuova tecnica di modellazione statistica che incorpora le informazioni temporali nel parlato. Il vantaggio di questa tecnica è che consente di modellare informazioni a lungo termine nel parlato con una complessità aggiuntiva minima e in un modo che consente comunque anche la generazione di parlato a banda larga in streaming o in tempo reale.

Nel giugno 2023 eri reclutato come Vice Presidente della Tecnologia presso LXT, cosa ti ha attratto verso questa posizione?

Durante la mia esperienza accademica e professionale precedente alla LXT, ho sempre lavorato direttamente con i dati. In effetti, come ho notato in precedenza, uno degli insegnamenti fondamentali che ho tratto dal mio lavoro con le scienze del linguaggio e l’apprendimento automatico è stato il ruolo cruciale svolto dai dati nel ciclo di vita del modello di intelligenza artificiale. Disporre di dati di qualità sufficienti nel formato giusto era, e continua ad essere, vitale per il successo dell’intelligenza artificiale all’avanguardia basata sul deep learning. Pertanto, quando mi sono trovato in una fase della mia carriera in cui cercavo un ambiente simile a una startup in cui avrei potuto imparare, ampliare le mie competenze e sfruttare la mia esperienza vocale e di intelligenza artificiale per avere il massimo impatto, sono stato fortunato per avere l'opportunità di unirsi a LXT. Era la soluzione perfetta. Non solo LXT è un fornitore di dati AI che sta crescendo a un ritmo impressionante e costante, ma lo vedevo anche nella fase perfetta in termini di crescita del know-how AI, nonché delle dimensioni e della diversità dei clienti, e quindi dell'AI. e tipi di dati AI. Ho apprezzato l'opportunità di unirmi e aiutare nel suo percorso di crescita; avere un grande impatto portando la prospettiva di un utente finale di dati dopo essere stato un utente di data scientist AI per tutti quegli anni.

Come si svolge la tua giornata tipo alla LXT?

La mia giornata tipo inizia esaminando le ultime ricerche su un argomento o un altro, che ultimamente si sono concentrate sull'intelligenza artificiale generativa, e su come possiamo applicarla alle esigenze dei nostri clienti. Fortunatamente, dispongo di un team eccellente, molto abile nel creare e personalizzare soluzioni per le esigenze di dati AI, spesso specializzate, dei nostri clienti. Quindi lavoro a stretto contatto con loro per definire tale agenda.

C'è anche, ovviamente, una pianificazione strategica annuale e trimestrale e la suddivisione degli obiettivi strategici in obiettivi individuali del team e il mantenimento del passo con gli sviluppi lungo tali piani. Per quanto riguarda lo sviluppo delle funzionalità che stiamo portando avanti, generalmente abbiamo due percorsi tecnologici. Il primo è assicurarci di disporre degli strumenti giusti per ottenere i migliori risultati sui nostri progetti attuali e su quelli futuri. L’altro percorso è migliorare ed espandere le nostre capacità tecnologiche, con particolare attenzione all’integrazione dell’apprendimento automatico in esse.

Potresti parlare dei tipi di algoritmi di apprendimento automatico su cui lavori a LXT?

Le soluzioni di intelligenza artificiale stanno trasformando le aziende in tutti i settori e noi di LXT siamo onorati di fornire dati di alta qualità per addestrare gli algoritmi di apprendimento automatico che le alimentano. I nostri clienti stanno lavorando su un'ampia gamma di applicazioni, tra cui realtà aumentata e virtuale, visione artificiale, intelligenza artificiale conversazionale, intelligenza artificiale generativa, pertinenza della ricerca ed elaborazione vocale e del linguaggio naturale (NLP), tra gli altri. Ci dedichiamo a potenziare gli algoritmi e le tecnologie di apprendimento automatico del futuro attraverso la generazione e il miglioramento dei dati in ogni lingua, cultura e modalità.

Internamente, stiamo anche incorporando l'apprendimento automatico per migliorare e ottimizzare i nostri processi interni, che vanno dall'automazione della convalida della qualità dei dati all'abilitazione di un modello di etichettatura human-in-the-loop in tutte le modalità di dati su cui lavoriamo.

L’elaborazione vocale e audio si sta rapidamente avvicinando alla perfezione quando si tratta di inglesi e in particolare di uomini bianchi. Quanto tempo prevedi che passerà prima che si raggiungano condizioni di parità tra tutte le lingue, i generi e le etnie?

Questa è una questione complicata e dipende da una serie di fattori, tra cui quelli economici, politici, sociali e tecnologici, tra gli altri. Ma ciò che è chiaro è che la prevalenza della lingua inglese è ciò che ha portato l’intelligenza artificiale dove siamo ora. Quindi, arrivare a un punto in cui ci sia parità di condizioni dipende davvero dalla velocità con cui la rappresentazione dei dati di diverse etnie e popolazioni cresce online, e il ritmo con cui cresce è ciò che determinerà quando ci arriveremo.

Tuttavia, LXT e società simili possono avere un grande aiuto nel guidarci verso condizioni di maggiore parità. Finché i dati relativi alle lingue, ai generi e alle etnie meno rappresentate saranno difficilmente accessibili o semplicemente non disponibili, il cambiamento avverrà più lentamente. Ma stiamo cercando di fare la nostra parte. Con una copertura di oltre 1,000 lingue locali e un'esperienza in 145 paesi, LXT aiuta a rendere possibile l'accesso a più dati linguistici.

Qual è la tua visione su come LXT può accelerare gli sforzi di intelligenza artificiale per diversi clienti?

Il nostro obiettivo in LXT è fornire soluzioni di dati che consentano uno sviluppo dell'intelligenza artificiale efficiente, accurato e più veloce. Attraverso i nostri 12 anni di esperienza nello spazio dei dati AI, non solo abbiamo accumulato un vasto know-how sulle esigenze dei clienti in termini di tutti gli aspetti relativi ai dati, ma abbiamo anche continuamente perfezionato i nostri processi al fine di fornire i massimi livelli dati di qualità al ritmo più rapido e ai prezzi migliori. Di conseguenza, come risultato del nostro costante impegno nel fornire ai nostri clienti la combinazione ottimale di qualità dei dati AI, efficienza e prezzi, siamo diventati un partner affidabile per i dati AI, come evidente dai nostri clienti abituali che continuano a tornare a LXT per il loro sempre- esigenze di dati IA in crescita e in evoluzione. La mia visione è consolidare, migliorare ed espandere quel "MO" LXT a tutte le modalità di dati su cui lavoriamo, nonché a tutti i tipi di sviluppo dell'IA che ora serviamo, inclusa l'intelligenza artificiale generativa. Il raggiungimento di questo obiettivo ruota attorno all’espansione strategica delle nostre capacità di machine learning e data science, sia in termini di tecnologia che di risorse.

Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare LXT.

Antoine è un leader visionario e socio fondatore di Unite.AI, spinto da una passione incrollabile per la definizione e la promozione del futuro dell'intelligenza artificiale e della robotica. Imprenditore seriale, ritiene che l'intelligenza artificiale sarà dirompente per la società quanto l'elettricità, e spesso viene colto a delirare sul potenziale delle tecnologie dirompenti e dell'AGI.

Come futurista, si dedica a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Titoli.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e rimodellando interi settori.