Interviews
Amr Nour-Eldin, vice-président de la technologie chez LXT – Série d'interviews

Amr Nour-Eldin, est le vice-président de la technologie chez LXT. Amr est titulaire d'un doctorat. chercheur scientifique avec plus de 16 ans d'expérience professionnelle dans les domaines du traitement vocal/audio et de l'apprentissage automatique dans le contexte de la reconnaissance automatique de la parole (ASR), avec un accent particulier et une expérience pratique ces dernières années sur les techniques d'apprentissage profond pour la fin du streaming. -reconnaissance vocale de bout en bout.
LXT est un leader émergent dans le domaine des données de formation en IA pour alimenter la technologie intelligente des organisations mondiales. En partenariat avec un réseau international de contributeurs, LXT collecte et annote des données selon de multiples modalités avec la vitesse, l'échelle et l'agilité requises par l'entreprise. Leur expertise mondiale s'étend sur plus de 145 pays et plus de 1000 langues locales.
Vous avez poursuivi un doctorat en traitement du signal à l'Université McGill, qu'est-ce qui vous a initialement intéressé dans ce domaine ?
J'ai toujours voulu étudier l'ingénierie et j'aimais beaucoup les sciences naturelles en général, mais j'étais plus particulièrement attiré par les mathématiques et la physique. Je cherchais constamment à comprendre le fonctionnement de la nature et à appliquer ces connaissances à la création technologique. Après le lycée, j'ai eu l'opportunité de me diriger vers la médecine et d'autres professions, mais j'ai choisi l'ingénierie car elle représentait, à mon avis, la combinaison parfaite entre théorie et application dans les deux domaines qui me tiennent à cœur : les mathématiques et la physique. Une fois cette voie choisie, de nombreuses voies s'offraient à moi : la mécanique, le génie civil, etc. J'ai choisi le génie électrique car c'est la voie la plus proche, et la plus difficile à mon avis, des problèmes de mathématiques et de physique que j'ai toujours trouvés stimulants et donc plus appréciés, et qui constitue également le fondement des technologies modernes qui m'ont toujours motivé.
En génie électrique, il existe différentes spécialisations, généralement regroupées sous deux grands axes : les télécommunications et le traitement du signal, et le génie électrique et énergétique. Entre ces deux domaines, j'ai opté pour les télécommunications et le traitement du signal, car ces domaines se rapprochent davantage de la description de la nature par la physique et les équations. Il s'agit de signaux, qu'ils soient audio, images ou vidéo ; de comprendre comment nous communiquons et ce que nos sens perçoivent, et de représenter mathématiquement ces informations afin de les exploiter pour créer et améliorer la technologie.
Pourriez-vous discuter de vos recherches à l’Université McGill sur l’aspect théorique de l’information de l’extension artificielle de la bande passante (BWE) ?
Après avoir obtenu ma licence, j'ai souhaité poursuivre mes études dans le domaine du traitement du signal. Après une année d'études en photonique dans le cadre d'un master en physique, j'ai décidé de revenir aux études d'ingénieur pour un master en traitement du signal audio et vocal, axé sur la reconnaissance vocale. Pour mon doctorat, j'ai souhaité élargir mon champ d'expertise au traitement audio et vocal en général, ainsi qu'aux domaines connexes de l'apprentissage automatique et de la théorie de l'information, plutôt que de me concentrer uniquement sur les applications de la reconnaissance vocale.
Le véhicule de mon doctorat était l’extension de la bande passante de la parole à bande étroite. La parole à bande étroite fait référence à la parole téléphonique conventionnelle. Le contenu fréquentiel de la parole s'étend jusqu'à environ 20 kilohertz, mais la majorité du contenu informatif est concentré jusqu'à seulement 4 kilohertz. L'extension de bande passante fait référence à l'extension artificielle du contenu vocal de 3.4 kilohertz, qui est la limite de fréquence supérieure de la téléphonie conventionnelle, jusqu'à huit kilohertz ou plus. Pour mieux reconstruire le contenu de fréquence plus élevée manquant en fonction du contenu à bande étroite disponible uniquement, il faut d'abord quantifier les informations mutuelles entre le contenu vocal dans les deux bandes de fréquences, puis utiliser ces informations pour former un modèle qui apprend ces informations partagées ; un modèle qui, une fois entraîné, peut ensuite être utilisé pour générer du contenu à bande haute en fonction uniquement de la parole à bande étroite et de ce que le modèle a appris sur la relation entre cette parole à bande étroite disponible et le contenu à bande haute manquant. La théorie de l’information entre en jeu dans la quantification et la représentation de cette « information mutuelle » partagée. La théorie de l’information est l’étude de la quantification et de la représentation de l’information dans n’importe quel signal. Mes recherches portaient donc sur l’intégration de la théorie de l’information pour améliorer l’extension artificielle de la bande passante de la parole. En tant que tel, mon doctorat était davantage une activité de recherche interdisciplinaire où je combinais le traitement du signal avec la théorie de l’information et l’apprentissage automatique.
Vous avez été Principal Speech Scientist chez Nuance Communications, qui fait désormais partie de Microsoft, pendant plus de 16 ans. Quels ont été les principaux enseignements que vous avez tirés de cette expérience ?
De mon point de vue, l'avantage le plus important était que je travaillais toujours sur des techniques de pointe en matière de traitement du signal et d'apprentissage automatique et que j'appliquais cette technologie à des applications du monde réel. J'ai eu la chance d'appliquer ces techniques à des produits d'IA conversationnelle dans plusieurs domaines. Ces domaines allaient de l'entreprise à la santé, en passant par l'automobile et la mobilité, entre autres. Certaines des applications spécifiques comprenaient des assistants virtuels, une réponse vocale interactive, une messagerie vocale en texte et d'autres où une représentation et une transcription appropriées sont essentielles, comme dans le domaine des soins de santé avec des interactions médecin/patient. Tout au long de ces 16 années, j'ai eu la chance d'être témoin direct et de faire partie de l'évolution de l'IA conversationnelle, depuis l'époque de la modélisation statistique utilisant des modèles de Markov cachés, en passant par la prise de contrôle progressive du Deep Learning, jusqu'à aujourd'hui où le Deep Learning prolifère et domine presque tout. aspects de l’IA, y compris l’IA générative ainsi que l’IA prédictive ou discriminante traditionnelle. Un autre point clé de cette expérience est le rôle crucial que jouent les données, en termes de quantité et de qualité, en tant que moteur clé des capacités et des performances des modèles d’IA.
Vous avez publié une douzaine d'articles, notamment dans des publications aussi acclamées que l'IEEE. Selon vous, quel est l’article le plus novateur que vous ayez publié et pourquoi était-il important ?
Le plus marquant, en termes de nombre de citations selon Google Scholar, serait un article de 2008 intitulé «Extension de la bande passante basée sur le coefficient cepstral à fréquence Mel de la parole à bande étroite». À un niveau élevé, cet article se concentre sur la façon de reconstruire le contenu de la parole à l'aide d'une représentation de caractéristiques largement utilisée dans le domaine de la reconnaissance automatique de la parole (ASR), les coefficients cepstraux à fréquence Mel.
Cependant, l’article le plus innovant à mon avis est celui qui arrive en deuxième position pour le plus grand nombre de citations, un article de 2011 intitulé «Approximation basée sur la mémoire du cadre de modèle de mélange gaussien pour l'extension de la bande passante de la parole à bande étroite« . Dans ce travail, j'ai proposé une nouvelle technique de modélisation statistique qui intègre des informations temporelles dans la parole. L'avantage de cette technique est qu'elle permet de modéliser des informations à long terme dans la parole avec une complexité supplémentaire minimale et d'une manière qui permet également la génération de parole à large bande en streaming ou en temps réel.
En juin 2023, vous étiez recruté comme vice-président de la technologie chez LXT, qu'est-ce qui vous a attiré vers ce poste ?
Tout au long de mon expérience académique et professionnelle avant LXT, j'ai toujours travaillé directement avec des données. En fait, comme je l’ai noté plus tôt, l’un des principaux enseignements de mon travail en science de la parole et en apprentissage automatique a été le rôle crucial joué par les données dans le cycle de vie des modèles d’IA. Disposer de suffisamment de données de qualité dans le bon format était et continue d'être essentiel au succès de l'IA de pointe basée sur l'apprentissage profond. En tant que tel, lorsque je me trouvais à un stade de ma carrière où je recherchais un environnement de type startup où je pourrais apprendre, élargir mes compétences, ainsi que tirer parti de mon expérience en matière de parole et d'IA pour avoir le plus d'impact, j'ai eu de la chance. pour avoir l'opportunité de rejoindre LXT. C'était la solution idéale. Non seulement LXT est un fournisseur de données d'IA qui croît à un rythme impressionnant et constant, mais je le considère également comme étant à un stade idéal en termes de croissance du savoir-faire en IA ainsi que de la taille et de la diversité des clients, et donc de l'IA. et les types de données IA. J'ai apprécié l'opportunité de rejoindre et de contribuer à son parcours de croissance ; avoir un impact important en apportant le point de vue d'un utilisateur final de données après avoir été un utilisateur de data scientist en IA pendant toutes ces années.
À quoi ressemble votre journée moyenne chez LXT ?
Ma journée type commence par l'examen des dernières recherches sur un sujet ou un autre, notamment l'IA générative, et la manière dont nous pouvons l'appliquer aux besoins de nos clients. Heureusement, je dispose d'une excellente équipe, experte dans la création et la personnalisation de solutions répondant aux besoins souvent pointus de nos clients en matière de données IA. Je travaille donc en étroite collaboration avec eux pour définir ce programme.
Il y a aussi, bien sûr, une planification stratégique annuelle et trimestrielle, ainsi que la décomposition des objectifs stratégiques en objectifs d'équipe individuels et le suivi de l'évolution de ces plans. Concernant le développement de fonctionnalités, nous suivons généralement deux axes technologiques. L'un consiste à nous assurer que nous disposons des éléments nécessaires pour obtenir les meilleurs résultats sur nos projets actuels et futurs. L'autre axe consiste à améliorer et à étendre nos capacités technologiques, en mettant l'accent sur l'intégration de l'apprentissage automatique.
Pourriez-vous discuter des types d’algorithmes d’apprentissage automatique sur lesquels vous travaillez chez LXT ?
Les solutions d'intelligence artificielle transforment les entreprises de tous les secteurs, et chez LXT, nous sommes honorés de fournir des données de haute qualité pour entraîner les algorithmes d'apprentissage automatique qui les alimentent. Nos clients travaillent sur un large éventail d'applications, notamment la réalité augmentée et virtuelle, la vision par ordinateur, l'IA conversationnelle, l'IA générative, la pertinence de la recherche et le traitement de la parole et du langage naturel (NLP), entre autres. Nous nous engageons à alimenter les algorithmes et les technologies d'apprentissage automatique du futur grâce à la génération et à l'amélioration de données dans toutes les langues, cultures et modalités.
En interne, nous intégrons également l'apprentissage automatique pour améliorer et optimiser nos processus internes, allant de l'automatisation de la validation de la qualité de nos données à l'activation d'un modèle d'étiquetage en boucle humaine sur toutes les modalités de données sur lesquelles nous travaillons.
Le traitement de la parole et de l’audio se rapproche rapidement de la perfection lorsqu’il s’agit d’hommes anglais et plus particulièrement blancs. Combien de temps pensez-vous qu’il faudra pour que les règles du jeu soient équitables pour toutes les langues, tous les sexes et toutes les ethnies ?
C'est une question complexe, qui dépend de nombreux facteurs, notamment économiques, politiques, sociaux et technologiques. Mais il est clair que la prédominance de l'anglais est à l'origine de l'IA où elle est aujourd'hui. Parvenir à des conditions de concurrence équitables dépend donc de la vitesse à laquelle la représentation des données issues de différentes ethnies et populations se développe en ligne, et c'est ce rythme qui déterminera notre réussite.
Cependant, LXT et des sociétés similaires peuvent jouer un rôle important en nous conduisant vers des règles du jeu plus équitables. Tant que les données sur les langues, les genres et les ethnies les moins bien représentés seront difficiles d’accès ou tout simplement indisponibles, ce changement se fera plus lentement. Mais nous essayons de faire notre part. Avec une couverture dans plus de 1,000 145 langues locales et une expérience dans XNUMX pays, LXT contribue à rendre possible l’accès à davantage de données linguistiques.
Quelle est votre vision de la façon dont LXT peut accélérer les efforts d’IA pour différents clients ?
Chez LXT, notre objectif est de fournir des solutions de données permettant un développement d'IA efficace, précis et rapide. Forts de nos 12 années d'expérience dans le domaine des données d'IA, nous avons non seulement acquis une connaissance approfondie des besoins de nos clients sur tous les aspects liés aux données, mais nous avons également continuellement perfectionné nos processus afin de fournir des données de la plus haute qualité, dans les meilleurs délais et aux meilleurs prix. Par conséquent, grâce à notre engagement constant à offrir à nos clients la combinaison optimale de qualité, d'efficacité et de prix des données d'IA, nous sommes devenus un partenaire de confiance en matière de données d'IA, comme en témoignent nos clients fidèles qui font régulièrement appel à LXT pour leurs besoins en données d'IA en constante évolution. Ma vision est de consolider, d'améliorer et d'étendre ce « MO » LXT à toutes les modalités de données sur lesquelles nous travaillons, ainsi qu'à tous les types de développement d'IA que nous servons actuellement, y compris l'IA générative. Atteindre cet objectif passe par le développement stratégique de nos propres capacités en apprentissage automatique et en science des données, tant en termes de technologie que de ressources.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter LXT.












