Contáctenos

Amr Nour-Eldin, vicepresidente de tecnología de LXT - Serie de entrevistas

Entrevistas

Amr Nour-Eldin, vicepresidente de tecnología de LXT - Serie de entrevistas

mm

Amr Nour-Eldin, es el vicepresidente de tecnología de LXT. Amr es un doctorado. Científico investigador con más de 16 años de experiencia profesional en los campos del procesamiento de voz/audio y aprendizaje automático en el contexto del reconocimiento automático de voz (ASR), con un enfoque particular y experiencia práctica en los últimos años en técnicas de aprendizaje profundo para el final de la transmisión. -reconocimiento de voz de extremo a extremo.

LXT es un líder emergente en datos de entrenamiento de IA para impulsar la tecnología inteligente para organizaciones globales. En asociación con una red internacional de contribuyentes, LXT recopila y anota datos en múltiples modalidades con la velocidad, escala y agilidad requerida por la empresa. Su experiencia global abarca más de 145 países y más de 1000 idiomas.

Obtuviste un doctorado en procesamiento de señales en la Universidad McGill, ¿qué te interesó inicialmente en este campo?

Siempre quise estudiar ingeniería y me gustaban mucho las ciencias naturales en general, pero me atraían más específicamente las matemáticas y la física. Siempre intentaba comprender cómo funciona la naturaleza y cómo aplicar ese conocimiento para crear tecnología. Después de la secundaria, tuve la oportunidad de estudiar medicina y otras profesiones, pero elegí específicamente la ingeniería porque representaba la combinación perfecta, desde mi punto de vista, tanto de la teoría como de la aplicación en los dos campos que más me apasionan: las matemáticas y la física. Y una vez que la elegí, había muchos caminos posibles: mecánica, civil, etc. Pero elegí específicamente la ingeniería eléctrica porque es la más cercana, y la más difícil, en mi opinión, al tipo de problemas de matemáticas y física que siempre encontré desafiantes y, por lo tanto, disfruté más, además de ser la base de la tecnología moderna que siempre me ha motivado.

Dentro de la ingeniería eléctrica, existen diversas especializaciones, que generalmente se agrupan en dos categorías: telecomunicaciones y procesamiento de señales, e ingeniería eléctrica y de potencia. Al elegir entre ambas, opté por telecomunicaciones y procesamiento de señales porque se acerca más a cómo describimos la naturaleza mediante la física y las ecuaciones. Nos referimos a señales, ya sean de audio, imágenes o video; a comprender cómo nos comunicamos y qué perciben nuestros sentidos, y a cómo representar matemáticamente esa información para aprovechar ese conocimiento para crear y mejorar la tecnología.

¿Podría hablarnos de su investigación en la Universidad McGill sobre el aspecto teórico de la información de la extensión artificial del ancho de banda (BWE)?

Tras finalizar mi licenciatura, quise seguir estudiando en el campo del Procesamiento de Señales. Tras un año de estudio de Fotónica como parte de una Maestría en Física, decidí volver a Ingeniería para cursar una Maestría en Procesamiento de Señales de Audio y Voz, con especialización en reconocimiento de voz. Al llegar el momento de realizar mi doctorado, quise ampliar mi campo de estudio hacia el procesamiento general de audio y voz, así como hacia áreas estrechamente relacionadas como el Aprendizaje Automático y la Teoría de la Información, en lugar de centrarme únicamente en la aplicación del reconocimiento de voz.

El vehículo para mi doctorado fue la extensión del ancho de banda del habla de banda estrecha. El habla de banda estrecha se refiere al habla de telefonía convencional. El contenido frecuencial del habla se extiende hasta unos 20 kilohercios, pero la mayor parte del contenido informativo se concentra hasta sólo 4 kilohercios. La extensión del ancho de banda se refiere a la extensión artificial del contenido de voz desde 3.4 kilohercios, que es la frecuencia superior limitada en la telefonía convencional, hasta ocho kilohercios o más. Para reconstruir mejor el contenido faltante de frecuencias más altas teniendo en cuenta solo el contenido de banda estrecha disponible, primero hay que cuantificar la información mutua entre el contenido de voz en las dos bandas de frecuencia y luego usar esa información para entrenar un modelo que aprenda esa información compartida; un modelo que, una vez entrenado, puede usarse para generar contenido de banda alta teniendo en cuenta solo el habla de banda estrecha y lo que el modelo aprendió sobre la relación entre esa voz de banda estrecha disponible y el contenido de banda alta faltante. Cuantificar y representar esa “información mutua” compartida es donde entra en juego la teoría de la información. La teoría de la información es el estudio de cuantificar y representar información en cualquier señal. Entonces mi investigación consistió en incorporar la teoría de la información para mejorar la extensión artificial del ancho de banda del habla. Como tal, mi doctorado fue más una actividad de investigación interdisciplinaria en la que combiné el procesamiento de señales con la teoría de la información y el aprendizaje automático.

Usted fue científico principal del habla en Nuance Communications, ahora parte de Microsoft, durante más de 16 años. ¿Cuáles fueron algunas de las principales conclusiones de esta experiencia?

Desde mi perspectiva, el beneficio más importante fue que siempre estuve trabajando en técnicas de vanguardia en procesamiento de señales y aprendizaje automático y aplicando esa tecnología a aplicaciones del mundo real. Tuve la oportunidad de aplicar esas técnicas a productos de IA conversacional en múltiples dominios. Estos dominios abarcaban desde empresas hasta atención médica, automoción y movilidad, entre otros. Algunas de las aplicaciones específicas incluyeron asistentes virtuales, respuesta de voz interactiva, correo de voz a texto y otras donde la representación y transcripción adecuadas son fundamentales, como en la atención médica con las interacciones médico/paciente. A lo largo de esos 16 años, tuve la suerte de presenciar de primera mano y ser parte de la evolución de la IA conversacional, desde los días del modelado estadístico utilizando modelos ocultos de Markov, pasando por la adquisición gradual del aprendizaje profundo, hasta ahora, donde el aprendizaje profundo prolifera y domina casi todo. aspectos de la IA, incluida la IA generativa, así como la IA tradicional predictiva o discriminativa. Otra conclusión clave de esa experiencia es el papel crucial que desempeñan los datos, a través de la cantidad y la calidad, como impulsor clave de las capacidades y el rendimiento del modelo de IA.

Ha publicado una docena de artículos, incluidos publicaciones tan aclamadas como IEEE. En su opinión, ¿cuál es el artículo más innovador que publicó y por qué fue importante?

El más impactante, por número de citas según Google Scholar, sería un artículo de 2008 titulado “Extensión del ancho de banda basada en el coeficiente cepstral de frecuencia Mel del habla de banda estrecha”. A alto nivel, el enfoque de este artículo es cómo reconstruir el contenido del habla utilizando una representación de características que se usa ampliamente en el campo del reconocimiento automático del habla (ASR), los coeficientes cepstrales de frecuencia mel.

Sin embargo, el artículo más innovador, en mi opinión, es el que ocupa el segundo lugar en número de citas, un artículo de 2011 titulado “Aproximación basada en la memoria del marco del modelo de mezcla gaussiana para la extensión del ancho de banda del habla de banda estrecha“. En ese trabajo, propuse una nueva técnica de modelado estadístico que incorpora información temporal en el habla. La ventaja de esa técnica es que permite modelar información a largo plazo en voz con una complejidad adicional mínima y de una manera que también permite la generación de voz de banda ancha en forma de streaming o en tiempo real.

En junio de 2023 estabas reclutado como vicepresidente de tecnología en LXT¿Qué te atrajo de este puesto?

A lo largo de mi experiencia académica y profesional previa a LXT, siempre he trabajado directamente con datos. De hecho, como señalé anteriormente, una conclusión clave de mi trabajo con la ciencia del habla y el aprendizaje automático fue el papel crucial que desempeñan los datos en el ciclo de vida del modelo de IA. Tener suficientes datos de calidad en el formato correcto era, y sigue siendo, vital para el éxito de la IA de última generación basada en el aprendizaje profundo. Como tal, cuando me encontré en una etapa de mi carrera en la que buscaba un entorno similar al de una startup donde pudiera aprender, ampliar mis habilidades y aprovechar mi experiencia en el habla y la inteligencia artificial para tener el mayor impacto, tuve suerte. tener la oportunidad de unirse a LXT. Fue el ajuste perfecto. LXT no solo es un proveedor de datos de IA que está creciendo a un ritmo impresionante y constante, sino que también lo considero en la etapa perfecta en términos de crecimiento en conocimientos de IA, así como en tamaño y diversidad de clientes y, por lo tanto, en IA. y tipos de datos de IA. Disfruté la oportunidad de unirme y ayudar en su viaje de crecimiento; tener un gran impacto al brindar la perspectiva de un usuario final de datos después de haber sido un usuario científico de datos de IA durante todos esos años.

¿Cómo es un día normal en LXT?

Mi día a día empieza con el análisis de las últimas investigaciones sobre un tema u otro, que últimamente se han centrado en la IA generativa, y cómo podemos aplicarla a las necesidades de nuestros clientes. Por suerte, cuento con un excelente equipo experto en crear y adaptar soluciones a las necesidades de datos de IA, a menudo especializadas, de nuestros clientes. Por ello, colaboro estrechamente con ellos para definir esa agenda.

También existe, por supuesto, una planificación estratégica anual y trimestral, así como la división de los objetivos estratégicos en objetivos individuales de equipo y el seguimiento de los avances de dichos planes. En cuanto al desarrollo de funcionalidades, generalmente nos basamos en dos líneas tecnológicas. Una consiste en asegurarnos de contar con los componentes adecuados para obtener los mejores resultados en nuestros proyectos actuales y futuros. La otra línea consiste en mejorar y ampliar nuestras capacidades tecnológicas, centrándonos en la incorporación del aprendizaje automático.

¿Podrías hablarnos de los tipos de algoritmos de aprendizaje automático en los que trabajas en LXT?

Las soluciones de inteligencia artificial están transformando empresas en todas las industrias, y en LXT nos sentimos honrados de proporcionar datos de alta calidad para entrenar los algoritmos de aprendizaje automático que las impulsan. Nuestros clientes están trabajando en una amplia gama de aplicaciones, que incluyen realidad virtual y aumentada, visión por computadora, IA conversacional, IA generativa, relevancia de búsqueda y procesamiento del habla y del lenguaje natural (PLN), entre otras. Nos dedicamos a impulsar los algoritmos y tecnologías de aprendizaje automático del futuro mediante la generación y mejora de datos en todos los idiomas, culturas y modalidades.

A nivel interno, también estamos incorporando aprendizaje automático para mejorar y optimizar nuestros procesos internos, desde automatizar la validación de la calidad de nuestros datos hasta habilitar un modelo de etiquetado con participación humana en todas las modalidades de datos en las que trabajamos.

El procesamiento del habla y el audio se está acercando rápidamente a la perfección cuando se trata de ingleses y específicamente de hombres blancos. ¿Cuánto tiempo cree que pasará hasta que haya igualdad de condiciones para todos los idiomas, géneros y etnias?

Esta es una pregunta compleja que depende de diversos factores, como los económicos, políticos, sociales y tecnológicos, entre otros. Pero lo que está claro es que la prevalencia del inglés es lo que impulsó la IA a la situación actual. Por lo tanto, alcanzar la igualdad de condiciones depende realmente de la velocidad con la que crezca la representación de datos de diferentes etnias y poblaciones en línea, y este ritmo determinará cuándo lo lograremos.

Sin embargo, LXT y empresas similares pueden contribuir en gran medida a impulsarnos hacia un campo de juego más nivelado. Mientras sea difícil acceder a los datos sobre idiomas, géneros y etnias menos representados o simplemente no estén disponibles, ese cambio se producirá más lentamente. Pero estamos intentando hacer nuestra parte. Con cobertura para más de 1,000 idiomas locales y experiencia en 145 países, LXT ayuda a hacer posible el acceso a más datos lingüísticos.

¿Cuál es su visión sobre cómo LXT puede acelerar los esfuerzos de IA para diferentes clientes?

Nuestro objetivo en LXT es proporcionar soluciones de datos que permitan un desarrollo de IA eficiente, preciso y rápido. A lo largo de nuestros 12 años de experiencia en el sector de los datos de IA, no solo hemos acumulado un amplio conocimiento sobre las necesidades de nuestros clientes en todos los aspectos relacionados con los datos, sino que también hemos perfeccionado continuamente nuestros procesos para ofrecer datos de la más alta calidad al ritmo más rápido y al mejor precio. En consecuencia, gracias a nuestro firme compromiso de ofrecer a nuestros clientes la combinación óptima de calidad, eficiencia y precio en datos de IA, nos hemos convertido en un socio de confianza en materia de datos de IA, como lo demuestran nuestros clientes habituales que recurren a LXT para satisfacer sus necesidades de datos de IA en constante crecimiento y evolución. Mi visión es consolidar, mejorar y expandir el "Modo de Operación" de LXT a todas las modalidades de datos con las que trabajamos, así como a todos los tipos de desarrollo de IA que ofrecemos, incluida la IA generativa. Lograr este objetivo gira en torno a la expansión estratégica de nuestras propias capacidades de aprendizaje automático y ciencia de datos, tanto en términos de tecnología como de recursos.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar LXT.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Es un emprendedor en serie y cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablar maravillas sobre el potencial de las tecnologías disruptivas y la IA general.

Como titular de futurista, se dedica a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Valores.io, una plataforma centrada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y transformando sectores enteros.