talón Amr Nour-Eldin, vicepresidente de tecnología de LXT - Serie de entrevistas - Unite.AI
Contáctanos

Entrevistas

Amr Nour-Eldin, vicepresidente de tecnología de LXT - Serie de entrevistas

mm
Actualizado on

Amr Nour-Eldin, es el vicepresidente de tecnología de LXT. Amr es un doctorado. Científico investigador con más de 16 años de experiencia profesional en los campos del procesamiento de voz/audio y aprendizaje automático en el contexto del reconocimiento automático de voz (ASR), con un enfoque particular y experiencia práctica en los últimos años en técnicas de aprendizaje profundo para el final de la transmisión. -reconocimiento de voz de extremo a extremo.

LXT es un líder emergente en datos de entrenamiento de IA para impulsar la tecnología inteligente para organizaciones globales. En asociación con una red internacional de contribuyentes, LXT recopila y anota datos en múltiples modalidades con la velocidad, escala y agilidad requerida por la empresa. Su experiencia global abarca más de 145 países y más de 1000 idiomas.

Obtuviste un doctorado en procesamiento de señales en la Universidad McGill, ¿qué te interesó inicialmente en este campo?

Siempre quise estudiar ingeniería y me gustaban mucho las ciencias naturales en general, pero me atraían más específicamente las matemáticas y la física. Siempre me encontré tratando de descubrir cómo funciona la naturaleza y cómo aplicar ese conocimiento para crear tecnología. Después de la secundaria, tuve la oportunidad de dedicarme a la medicina y otras profesiones, pero elegí específicamente la ingeniería porque, desde mi punto de vista, representaba la combinación perfecta tanto de teoría como de aplicación en los dos campos más cercanos a mi corazón: matemáticas y física. Y luego, una vez que lo escogí, hubo muchos caminos potenciales: mecánicos, civiles, etc. Pero elegí específicamente la ingeniería eléctrica porque es la más cercana y, en mi opinión, la más difícil al tipo de problemas de matemáticas y física que siempre encontré desafiantes y, por lo tanto, disfruté más, además de ser la base de la tecnología moderna que siempre ha impulsado a mí.

Dentro de la ingeniería eléctrica, hay varias especializaciones para elegir, que generalmente se agrupan en dos grupos: telecomunicaciones y procesamiento de señales, y el de ingeniería eléctrica y de energía. Cuando llegó el momento de elegir entre esos dos, elegí las telecomunicaciones y el procesamiento de señales porque se acerca más a cómo describimos la naturaleza a través de la física y las ecuaciones. Estás hablando de señales, ya sean audio, imágenes o vídeo; comprender cómo nos comunicamos y qué perciben nuestros sentidos, y cómo representar matemáticamente esa información de una manera que nos permita aprovechar ese conocimiento para crear y mejorar la tecnología.

¿Podría hablarnos de su investigación en la Universidad McGill sobre el aspecto teórico de la información de la extensión artificial del ancho de banda (BWE)?

Después de terminar mi licenciatura, quería seguir estudiando académicamente el campo del procesamiento de señales. Después de un año de estudiar Fotónica como parte de una Maestría en Física, decidí volver a Ingeniería para realizar mi maestría en Procesamiento de señales de Audio y Habla, enfocándome en el reconocimiento de voz. Cuando llegó el momento de hacer mi doctorado, quería ampliar un poco mi campo hacia el procesamiento general de audio y voz, así como los campos estrechamente relacionados del aprendizaje automático y la teoría de la información, en lugar de centrarme únicamente en la aplicación de reconocimiento de voz.

El vehículo para mi doctorado fue la extensión del ancho de banda del habla de banda estrecha. El habla de banda estrecha se refiere al habla de telefonía convencional. El contenido frecuencial del habla se extiende hasta unos 20 kilohercios, pero la mayor parte del contenido informativo se concentra hasta sólo 4 kilohercios. La extensión del ancho de banda se refiere a la extensión artificial del contenido de voz desde 3.4 kilohercios, que es la frecuencia superior limitada en la telefonía convencional, hasta ocho kilohercios o más. Para reconstruir mejor el contenido faltante de frecuencias más altas teniendo en cuenta solo el contenido de banda estrecha disponible, primero hay que cuantificar la información mutua entre el contenido de voz en las dos bandas de frecuencia y luego usar esa información para entrenar un modelo que aprenda esa información compartida; un modelo que, una vez entrenado, puede usarse para generar contenido de banda alta teniendo en cuenta solo el habla de banda estrecha y lo que el modelo aprendió sobre la relación entre esa voz de banda estrecha disponible y el contenido de banda alta faltante. Cuantificar y representar esa “información mutua” compartida es donde entra en juego la teoría de la información. La teoría de la información es el estudio de cuantificar y representar información en cualquier señal. Entonces mi investigación consistió en incorporar la teoría de la información para mejorar la extensión artificial del ancho de banda del habla. Como tal, mi doctorado fue más una actividad de investigación interdisciplinaria en la que combiné el procesamiento de señales con la teoría de la información y el aprendizaje automático.

Usted fue científico principal del habla en Nuance Communications, ahora parte de Microsoft, durante más de 16 años. ¿Cuáles fueron algunas de las principales conclusiones de esta experiencia?

Desde mi perspectiva, el beneficio más importante fue que siempre estuve trabajando en técnicas de vanguardia en procesamiento de señales y aprendizaje automático y aplicando esa tecnología a aplicaciones del mundo real. Tuve la oportunidad de aplicar esas técnicas a productos de IA conversacional en múltiples dominios. Estos dominios abarcaban desde empresas hasta atención médica, automoción y movilidad, entre otros. Algunas de las aplicaciones específicas incluyeron asistentes virtuales, respuesta de voz interactiva, correo de voz a texto y otras donde la representación y transcripción adecuadas son fundamentales, como en la atención médica con las interacciones médico/paciente. A lo largo de esos 16 años, tuve la suerte de presenciar de primera mano y ser parte de la evolución de la IA conversacional, desde los días del modelado estadístico utilizando modelos ocultos de Markov, pasando por la adquisición gradual del aprendizaje profundo, hasta ahora, donde el aprendizaje profundo prolifera y domina casi todo. aspectos de la IA, incluida la IA generativa, así como la IA tradicional predictiva o discriminativa. Otra conclusión clave de esa experiencia es el papel crucial que desempeñan los datos, a través de la cantidad y la calidad, como impulsor clave de las capacidades y el rendimiento del modelo de IA.

Ha publicado una docena de artículos, incluidos publicaciones tan aclamadas como IEEE. En su opinión, ¿cuál es el artículo más innovador que publicó y por qué fue importante?

El más impactante, por número de citas según Google Scholar, sería un artículo de 2008 titulado “Extensión del ancho de banda basada en el coeficiente cepstral de frecuencia Mel del habla de banda estrecha”. A alto nivel, el enfoque de este artículo es cómo reconstruir el contenido del habla utilizando una representación de características que se usa ampliamente en el campo del reconocimiento automático del habla (ASR), los coeficientes cepstrales de frecuencia mel.

Sin embargo, el artículo más innovador, en mi opinión, es el que ocupa el segundo lugar en número de citas, un artículo de 2011 titulado “Aproximación basada en la memoria del marco del modelo de mezcla gaussiana para la extensión del ancho de banda del habla de banda estrecha“. En ese trabajo, propuse una nueva técnica de modelado estadístico que incorpora información temporal en el habla. La ventaja de esa técnica es que permite modelar información a largo plazo en voz con una complejidad adicional mínima y de una manera que también permite la generación de voz de banda ancha en forma de streaming o en tiempo real.

En junio de 2023 estabas reclutado como vicepresidente de tecnología en LXT¿Qué te atrajo de este puesto?

A lo largo de mi experiencia académica y profesional previa a LXT, siempre he trabajado directamente con datos. De hecho, como señalé anteriormente, una conclusión clave de mi trabajo con la ciencia del habla y el aprendizaje automático fue el papel crucial que desempeñan los datos en el ciclo de vida del modelo de IA. Tener suficientes datos de calidad en el formato correcto era, y sigue siendo, vital para el éxito de la IA de última generación basada en el aprendizaje profundo. Como tal, cuando me encontré en una etapa de mi carrera en la que buscaba un entorno similar al de una startup donde pudiera aprender, ampliar mis habilidades y aprovechar mi experiencia en el habla y la inteligencia artificial para tener el mayor impacto, tuve suerte. tener la oportunidad de unirse a LXT. Fue el ajuste perfecto. LXT no solo es un proveedor de datos de IA que está creciendo a un ritmo impresionante y constante, sino que también lo considero en la etapa perfecta en términos de crecimiento en conocimientos de IA, así como en tamaño y diversidad de clientes y, por lo tanto, en IA. y tipos de datos de IA. Disfruté la oportunidad de unirme y ayudar en su viaje de crecimiento; tener un gran impacto al brindar la perspectiva de un usuario final de datos después de haber sido un usuario científico de datos de IA durante todos esos años.

¿Cómo es un día normal en LXT?

Mi día normal comienza investigando las últimas investigaciones sobre un tema u otro, que últimamente se han centrado en la IA generativa, y cómo podemos aplicarla a las necesidades de nuestros clientes. Afortunadamente, cuento con un equipo excelente que es muy experto en crear y adaptar soluciones a las necesidades de datos de IA, a menudo especializadas, de nuestros clientes. Por eso trabajo estrechamente con ellos para establecer esa agenda.

Por supuesto, también existe la planificación estratégica anual y trimestral, y el desglose de los objetivos estratégicos en metas de equipo individuales y el mantenerse al día con los desarrollos de esos planes. En cuanto al desarrollo de funciones que estamos realizando, generalmente tenemos dos vías tecnológicas. Una es asegurarnos de que contamos con las piezas adecuadas para ofrecer los mejores resultados en nuestros proyectos actuales y nuevos. La otra vía es mejorar y ampliar nuestras capacidades tecnológicas, centrándonos en incorporarles el aprendizaje automático.

¿Podrías hablarnos de los tipos de algoritmos de aprendizaje automático en los que trabajas en LXT?

Las soluciones de inteligencia artificial están transformando empresas en todas las industrias, y en LXT nos sentimos honrados de proporcionar datos de alta calidad para entrenar los algoritmos de aprendizaje automático que las impulsan. Nuestros clientes están trabajando en una amplia gama de aplicaciones, que incluyen realidad virtual y aumentada, visión por computadora, IA conversacional, IA generativa, relevancia de búsqueda y procesamiento del habla y del lenguaje natural (PLN), entre otras. Nos dedicamos a impulsar los algoritmos y tecnologías de aprendizaje automático del futuro mediante la generación y mejora de datos en todos los idiomas, culturas y modalidades.

Internamente, también estamos incorporando aprendizaje automático para mejorar y optimizar nuestros procesos internos, desde automatizar la validación de la calidad de nuestros datos hasta habilitar un modelo de etiquetado humano en todas las modalidades de datos en las que trabajamos.

El procesamiento del habla y el audio se está acercando rápidamente a la perfección cuando se trata de ingleses y específicamente de hombres blancos. ¿Cuánto tiempo cree que pasará hasta que haya igualdad de condiciones para todos los idiomas, géneros y etnias?

Esta es una cuestión complicada, y depende de una serie de factores, entre ellos los económicos, políticos, sociales y tecnológicos, entre otros. Pero lo que está claro es que la prevalencia del idioma inglés es lo que llevó a la IA a donde estamos ahora. Entonces, llegar a un lugar donde haya igualdad de condiciones realmente depende de la velocidad a la que crece en línea la representación de datos de diferentes etnias y poblaciones, y el ritmo al que crece es lo que determinará cuándo llegaremos allí.

Sin embargo, LXT y empresas similares pueden contribuir en gran medida a impulsarnos hacia un campo de juego más nivelado. Mientras sea difícil acceder a los datos sobre idiomas, géneros y etnias menos representados o simplemente no estén disponibles, ese cambio se producirá más lentamente. Pero estamos intentando hacer nuestra parte. Con cobertura para más de 1,000 idiomas locales y experiencia en 145 países, LXT ayuda a hacer posible el acceso a más datos lingüísticos.

¿Cuál es su visión sobre cómo LXT puede acelerar los esfuerzos de IA para diferentes clientes?

Nuestro objetivo en LXT es proporcionar soluciones de datos que permitan un desarrollo de IA eficiente, preciso y más rápido. A través de nuestros 12 años de experiencia en el espacio de datos de IA, no solo hemos acumulado un amplio conocimiento sobre las necesidades de los clientes en términos de todos los aspectos relacionados con los datos, sino que también hemos perfeccionado continuamente nuestros procesos para ofrecer la más alta calidad. datos de calidad al ritmo más rápido y al mejor precio. En consecuencia, como resultado de nuestro firme compromiso de brindar a nuestros clientes la combinación óptima de calidad, eficiencia y precios de datos de IA, nos hemos convertido en un socio confiable de datos de IA, como lo demuestran nuestros clientes habituales que siguen regresando a LXT para sus necesidades siempre. necesidades de datos de IA crecientes y en evolución. Mi visión es consolidar, mejorar y expandir ese “MO” LXT a todas las modalidades de datos en las que trabajamos, así como a todos los tipos de desarrollo de IA a los que ahora servimos, incluida la IA generativa. Lograr este objetivo gira en torno a expandir estratégicamente nuestras propias capacidades de aprendizaje automático y ciencia de datos, tanto en términos de tecnología como de recursos.

Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar LXT.

Socio fundador de unite.AI y miembro de la consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica.

También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva.