Entrevistas

Amr Nour-Eldin, Vice-Presidente de Tecnologia da LXT – SĂ©rie de Entrevistas

mm

Amr Nour-Eldin é o Vice-Presidente de Tecnologia da LXT. Amr é um cientista de pesquisa com PhD e mais de 16 anos de experiência profissional nos campos de processamento de fala/áudio e aprendizado de máquina no contexto do Reconhecimento Automático de Fala (ASR), com foco particular e experiência prática nos últimos anos em técnicas de aprendizado profundo para reconhecimento de fala em tempo real.

LXT é um líder emergente em treinamento de dados de IA para alimentar tecnologia inteligente para organizações globais. Em parceria com uma rede internacional de contribuintes, a LXT coleta e anota dados em várias modalidades com a velocidade, escala e agilidade necessárias para as empresas. A expertise global da LXT abrange mais de 145 países e mais de 1000 locais de idioma.

Você buscou um PhD em Processamento de Sinais na Universidade McGill, o que o interessou inicialmente nesse campo?

Eu sempre quis estudar engenharia e gostava de ciências naturais em geral, mas fui atraído mais especificamente para a matemática e a física. Eu me encontrava sempre tentando descobrir como a natureza funciona e como aplicar esse entendimento para criar tecnologia. Depois do ensino médio, eu tive a oportunidade de entrar na medicina e outras profissões, mas escolhi especificamente a engenharia porque representava a combinação perfeita, em minha opinião, de teoria e aplicação nos dois campos mais próximos do meu coração: matemática e física. E então, uma vez que eu havia escolhido, havia muitos caminhos possíveis – mecânica, civil, e assim por diante. Mas eu escolhi especificamente a engenharia elétrica porque é a mais próxima, e a mais difícil, em minha opinião, dos tipos de problemas de matemática e física que eu sempre encontrei desafiadores e, portanto, mais agradáveis, bem como a base da tecnologia moderna que sempre me impulsionou.

Dentro da engenharia elétrica, há várias especializações para escolher, que geralmente se enquadram em duas categorias: telecomunicações e processamento de sinais, e a de energia e engenharia elétrica. Quando chegou a hora de escolher entre essas duas, eu escolhi telecomunicações e processamento de sinais porque é mais próximo de como descrevemos a natureza por meio da física e das equações. Você está falando sobre sinais, seja áudio, imagens ou vídeo; entendendo como nos comunicamos e o que nossos sentidos percebem, e como representar matematicamente essa informação de uma maneira que nos permita aproveitar esse conhecimento para criar e melhorar a tecnologia.

Pode discutir sua pesquisa na Universidade McGill sobre o aspecto da informação-teórica da extensão de banda artificial (BWE)?

Depois que terminei meu bacharelado, eu queria continuar perseguindo o campo do Processamento de Sinais academicamente. Depois de um ano de estudo em Fótonica como parte de um mestrado em Física, eu decidi voltar à Engenharia para perseguir meu mestrado em Processamento de Áudio e Fala, focando no reconhecimento de fala. Quando chegou a hora de fazer meu PhD, eu queria ampliar meu campo um pouco para o processamento de áudio e fala em geral, bem como os campos relacionados de Aprendizado de Máquina e Teoria da Informação, em vez de apenas me concentrar na aplicação do reconhecimento de fala.

O veículo para meu PhD foi a extensão de banda de fala de banda estreita. Fala de banda estreita se refere à fala convencional de telefonia. O conteúdo de frequência da fala se estende até cerca de 20 quilohertz, mas a maior parte do conteúdo de informação está concentrada até apenas 4 quilohertz. A extensão de banda refere-se à extensão artificial do conteúdo da fala de 3,4 quilohertz, que é o limite superior de frequência na telefonia convencional, para acima disso, até oito quilohertz ou mais. Para melhor reconstruir esse conteúdo de frequência mais alta ausente, dado apenas o conteúdo de banda estreita disponível, é necessário primeiro quantificar a informação mútua entre o conteúdo da fala nas duas faixas de frequência, e então usar essa informação para treinar um modelo que aprenda essa informação compartilhada; um modelo que, uma vez treinado, possa então ser usado para gerar conteúdo de banda larga dado apenas a fala de banda estreita e o que o modelo aprendeu sobre a relação entre a fala de banda estreita disponível e o conteúdo de banda larga ausente. A quantificação e representação dessa informação mútua compartilhada é onde a teoria da informação entra. A teoria da informação é o estudo da quantificação e representação da informação em qualquer sinal. Portanto, minha pesquisa foi sobre incorporar a teoria da informação para melhorar a extensão artificial de banda da fala. Como tal, meu PhD foi mais uma atividade de pesquisa interdisciplinar onde eu combinei processamento de sinais com teoria da informação e aprendizado de máquina.

Você foi um Cientista de Fala Principal na Nuance Communications, agora parte da Microsoft, por mais de 16 anos, quais foram algumas de suas principais conclusões dessa experiência?

Na minha perspectiva, o benefício mais importante foi que eu sempre trabalhei com técnicas de ponta em processamento de sinais e aprendizado de máquina e aplicava essa tecnologia a aplicações do mundo real. Eu tive a chance de aplicar essas técnicas a produtos de IA Conversacional em vários domínios. Esses domínios variaram desde empresas, até saúde, automotivo e mobilidade, entre outros. Algumas das aplicações específicas incluíram assistentes virtuais, resposta de voz interativa, voz para texto e outras onde a representação e transcrição adequadas são críticas, como na saúde com interações médico-paciente. Ao longo desses 16 anos, eu tive a sorte de testemunhar e fazer parte da evolução da IA conversacional, desde os dias de modelagem estatística usando Modelos de Markov Ocultos, passando pela gradual tomada de poder do Aprendizado Profundo, até agora, onde o aprendizado profundo prolifera e domina quase todos os aspectos da IA, incluindo a IA Geradora, bem como a IA tradicional preditiva ou discriminativa. Outra conclusão importante dessa experiência é o papel crucial que os dados desempenham, tanto em quantidade quanto em qualidade, como um driver fundamental das capacidades e do desempenho dos modelos de IA.

Você publicou uma dúzia de artigos, incluindo em publicações renomadas como a IEEE. Na sua opinião, qual é o artigo mais inovador que você publicou e por que foi importante?

O mais impactante, pelo número de citações de acordo com o Google Scholar, seria um artigo de 2008 intitulado “Mel-Frequency Cepstral Coefficient-Based Bandwidth Extension of Narrowband Speech”. Em alto nível, o foco desse artigo é sobre como reconstruir o conteúdo da fala usando uma representação de recursos amplamente utilizada no campo do reconhecimento automático de fala (ASR), os coeficientes cepstrais de frequência mel.

No entanto, o artigo mais inovador, na minha opinião, é um artigo com a segunda maior quantidade de citações, um artigo de 2011 intitulado “Memory-Based Approximation of the Gaussian Mixture Model Framework for Bandwidth Extension of Narrowband Speech“. Nesse trabalho, eu propus uma nova técnica de modelagem estatística que incorpora informações temporais na fala. A vantagem dessa técnica é que ela permite modelar informações de longo prazo na fala com mínima complexidade adicional e de uma maneira que ainda permite a geração de fala de banda larga em tempo real.

Em junho de 2023, você foi contratado como Vice-Presidente de Tecnologia da LXT, o que o atraiu para essa posição?

Ao longo de minha experiência acadêmica e profissional anterior à LXT, eu sempre trabalhei diretamente com dados. De fato, como eu notei anteriormente, uma das principais conclusões para mim do meu trabalho com ciência da fala e aprendizado de máquina foi o papel crucial que os dados desempenham no ciclo de vida do modelo de IA. Ter dados de qualidade suficientes no formato certo é, e continua sendo, vital para o sucesso de modelos de IA de ponta baseados em aprendizado profundo. Como tal, quando eu estava em uma etapa da minha carreira em que eu estava procurando por um ambiente de startup onde eu pudesse aprender, ampliar minhas habilidades, bem como aproveitar minha experiência em fala e IA para ter o maior impacto, eu tive a oportunidade de me juntar à LXT. Foi o ajuste perfeito. Não apenas a LXT é um provedor de dados de IA que está crescendo a um ritmo impressionante e consistente, mas eu também a vi como estando no estágio perfeito de crescimento em termos de conhecimento de IA, bem como em tamanho e diversidade de clientes, e, portanto, em tipos de dados de IA. Eu me deleitei com a oportunidade de me juntar e ajudar em sua jornada de crescimento; para ter um grande impacto trazendo a perspectiva de um usuário final de dados de IA após ter sido um usuário de dados de IA por todos esses anos.

Como é o seu dia típico na LXT?

Meu dia típico começa olhando para as últimas pesquisas sobre um tópico ou outro, que tem se concentrado recentemente em IA geradora, e como podemos aplicá-la às necessidades de nossos clientes. Felizmente, eu tenho uma equipe excelente que é muito habilidosa em criar e personalizar soluções para as necessidades de dados de IA especializados de nossos clientes. Então, eu trabalho em estreita colaboração com eles para definir essa agenda.

Além disso, há, é claro, planejamento estratégico anual e trimestral, e a quebra de objetivos estratégicos em metas de equipe individuais e manter o ritmo com os desenvolvimentos ao longo desses planos. Quanto ao desenvolvimento de recursos que estamos fazendo, geralmente temos duas trilhas tecnológicas. Uma é garantir que temos as peças certas no lugar para entregar os melhores resultados em nossos projetos atuais e novos. A outra trilha é melhorar e expandir nossas capacidades tecnológicas, com foco em incorporar aprendizado de máquina nelas.

Pode discutir os tipos de algoritmos de aprendizado de máquina que você trabalha na LXT?

As soluções de inteligência artificial estão transformando empresas em todas as indústrias, e nós, na LXT, nos orgulhamos de fornecer os dados de alta qualidade para treinar os algoritmos de aprendizado de máquina que as impulsionam. Nossos clientes estão trabalhando em uma ampla gama de aplicações, incluindo realidade aumentada e virtual, visão computacional, IA conversacional, IA geradora, relevância de busca e processamento de fala e linguagem natural (NLP), entre outras. Estamos dedicados a impulsionar os algoritmos e tecnologias de aprendizado de máquina do futuro por meio da geração e melhoria de dados em todos os idiomas, culturas e modalidades.

Internamente, também estamos incorporando aprendizado de máquina para melhorar e otimizar nossos processos internos, variando desde a automação de nossa validação de qualidade de dados até permitir um modelo de marcação com intervenção humana em todas as modalidades de dados em que trabalhamos.

A fala e o processamento de áudio estão se aproximando rapidamente da perfeição quando se trata de inglês e, especificamente, homens brancos. Quanto tempo você acha que levará até que seja um campo de jogo nivelado em todos os idiomas, gêneros e etnias?

Essa é uma pergunta complicada, e depende de uma série de fatores, incluindo os econômicos, políticos, sociais e tecnológicos, entre outros. Mas o que é claro é que a prevalência do idioma inglês é o que impulsionou a IA ao ponto em que estamos agora. Então, para chegar a um lugar onde é um campo de jogo nivelado, realmente depende da velocidade com que a representação de dados de diferentes etnias e populações cresce online, e o ritmo com que cresce é o que determinará quando chegaremos lá.

No entanto, a LXT e empresas semelhantes podem ter um grande papel em impulsionar o caminho para um campo de jogo mais nivelado. Enquanto os dados para idiomas, gêneros e etnias menos representados forem difíceis de acessar ou simplesmente não estiverem disponíveis, essa mudança virá mais lentamente. Mas estamos tentando fazer nossa parte. Com cobertura para mais de 1.000 locais de idioma e experiência em 145 países, a LXT ajuda a tornar o acesso a mais dados de idioma possível.

Qual é sua visão para como a LXT pode acelerar os esforços de IA para diferentes clientes?

Nossa meta na LXT é fornecer as soluções de dados que permitem o desenvolvimento de IA eficiente, preciso e rápido. Através de nossos 12 anos de experiência no espaço de dados de IA, não apenas acumulamos um conhecimento extenso sobre as necessidades dos clientes em termos de todos os aspectos relacionados aos dados, mas também continuamos a aprimorar nossos processos para entregar os dados de maior qualidade no ritmo mais rápido e nos melhores preços. Consequentemente, como resultado de nosso compromisso firme em fornecer aos nossos clientes a combinação ideal de qualidade, eficiência e preços de dados de IA, nos tornamos um parceiro de confiança de dados de IA, como evidenciado por nossos clientes que continuam a voltar à LXT para suas necessidades de dados de IA em constante evolução. Minha visão é cimentar, melhorar e expandir essa “marca” da LXT para todas as modalidades de dados em que trabalhamos, bem como para todos os tipos de desenvolvimento de IA que agora servimos, incluindo a IA geradora. Atingir esse objetivo gira em torno de expandir estrategicamente nossas próprias capacidades de aprendizado de máquina e ciência de dados, tanto em termos de tecnologia quanto de recursos.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar LXT.

Antoine Ă© um lĂ­der visionĂĄrio e sĂłcio-fundador da Unite.AI, impulsionado por uma paixĂŁo inabalĂĄvel por moldar e promover o futuro da IA e da robĂłtica. Um empreendedor serial, ele acredita que a IA serĂĄ tĂŁo disruptiva para a sociedade quanto a eletricidade, e Ă© frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele estå dedicado a explorar como essas inovaçÔes moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.