Entrevistas

Dr. Neil Yager, co-fundador e cientista-chefe da Phrasee – série de entrevistas

Atualização do on 9 de dezembro de 2022

Dr. Neil Yager é o cientista-chefe da Phrasee, e o arquiteto do método Phrasee, uma ferramenta de redação baseada em IA que ajudou a otimizar a cópia de marketing para algumas das marcas mais reconhecidas do mundo, incluindo eBay, Groupon e Virgin - além de muitas outras, da Austrália à América, em mais de 20 idiomas, do inglês ao japonês.

O Dr. Yager escreveu mais de uma dúzia de publicações acadêmicas, escreveu um livro sobre mineração de dados, e detém várias patentes. Como um dos maiores especialistas mundiais na comercialização de inteligência artificial, ele é PhD em Ciência da Computação pela University of New South Wales, na Austrália.

Você é um veterano de 20 anos na indústria de tecnologia. Quais foram algumas de suas funções anteriores relacionadas à IA?

Estou envolvido em trabalhos relacionados à IA desde meu doutorado em meados dos anos 2000. No entanto, o campo passou por várias reformulações de marca desde então. Por exemplo, há 15 anos estudei “reconhecimento de padrões estatísticos”. Alguns anos depois, isso ficou mais conhecido como “aprendizado de máquina”, que é um nome muito mais cativante. Mais recentemente, a aprendizagem automática (e a “aprendizagem profunda” em particular) tornou-se sinónimo de “inteligência artificial” em geral. Tenho sentimentos confusos sobre isso. Por um lado, meu trabalho com a Phrasee me ensinou a importância da marca. Por outro lado, o termo “inteligência artificial” traz consigo uma bagagem e pode levar a conceitos errados sobre a tecnologia. Eu me pergunto onde estaríamos se todos ainda chamássemos isso de “reconhecimento de padrões estatísticos”.

A maior parte do meu trabalho anterior foi nas áreas de processamento de sinais e visão computacional. Não tive muita exposição ao processamento de linguagem natural antes do Phrasee. Desde então, aprendi que a linguagem é provavelmente o problema mais difícil da IA.

Em 2008 você co-escreveu um livro chamado 'Sistema biométrico e análise de dados: projeto, avaliação e mineração de dados', que une aspectos de estatística e aprendizado de máquina para fornecer um guia abrangente para avaliação, interpretação e compreensão de dados biométricos. Além de mais recursos de computação, você acredita que esse campo evoluiu desde que este livro foi publicado? Você poderia descrever como?

O aprendizado profundo abalou os campos da visão computacional, processamento de linguagem e aprendizado de máquina desde que escrevi esse livro. Não seria possível escrever esse livro hoje sem uma seção sobre aprendizagem profunda.

A revolução do aprendizado profundo realmente decolou em 2012, quando um modelo de aprendizado profundo venceu uma competição chamada ImageNet. ImageNet é um conjunto de dados de reconhecimento de objeto visual onde o computador determina o que está em uma imagem (por exemplo, “cachorro” ou “balão”). Durante décadas, os pesquisadores obtiveram ganhos incrementais em conjuntos de dados de referência como este. Cada subcampo operava de forma independente e dependia fortemente de conhecimentos específicos do domínio. Quase da noite para o dia, todos os modelos meticulosamente construídos ao longo de muitos anos se tornaram obsoletos. Algoritmos de aprendizado profundo projetados por pessoas de fora estavam ganhando competições por margens significativas. Isso transformou a indústria de IA.

O campo ainda está se movendo rapidamente e evoluiu desde o início do Phrasee, apenas alguns anos atrás. Por exemplo, as ferramentas de aprendizado profundo das quais agora dependemos nem existiam quando fundamos a empresa. O ritmo da inovação traz seus próprios desafios.

Você poderia compartilhar conosco o que o Phrasee é capaz de fazer pelas empresas?

Phrasee resolve dois problemas para os negócios. Em primeiro lugar, há o problema de escrever uma cópia de marketing. Existem mais canais de publicidade agora do que nunca (por exemplo, e-mail, AdWords, social, impressão, podcasts, etc.). É difícil escrever uma cópia de alta qualidade e de acordo com o estilo e o tom de voz da marca. Phrasee aborda o problema de escala gerando cópias automaticamente. Em segundo lugar, é importante que toda a linguagem utilizada seja eficaz. O Phrasee não apenas gera linguagem, mas também usa aprendizado de máquina para prever o impacto da mensagem e otimizar de acordo.

O que atraiu você para a ideia de usar o Processamento de Linguagem Natural (NLP) e o Deep Learning para melhorar o poder da cópia do anúncio?

Usar IA para maximizar o impacto das campanhas de marketing digital não é uma ideia nova. Existem equipes de pessoas com doutorado em física que foram recrutadas para trabalhar na otimização de anúncios. No entanto, na maioria dos casos, eles estão concentrando seus esforços de P&D em coisas como segmentação de público, personalização, tempo de entrega, posicionamento do anúncio, fontes etc. linguagem real que está sendo usada! Identificamos isso como uma lacuna no mercado e uma grande oportunidade.

Phrasee é capaz de melhorar a cópia de marketing em mais de 20 idiomas, incluindo japonês. Você poderia discutir alguns dos problemas exclusivos de processamento de linguagem natural encontrados em idiomas estrangeiros?

A adição mais recente ao nosso conjunto de idiomas suportados é o russo. Esta é uma língua eslava e é bastante distinta de outras línguas indo-européias. Nesse caso, foi necessário criar novas regras em nosso sistema de geração de linguagem para que a saída seja fluente e gramaticalmente correta. Esta não é apenas uma questão de linguagem. É também uma questão de desenvolvimento de software. Quando a saída do nosso sistema está no idioma nativo do desenvolvedor, é relativamente fácil detectar erros e verificar se tudo está funcionando corretamente. No entanto, ao trabalhar em russo ou japonês, podemos produzir bobagens e não fazer ideia. É importante ter um falante nativo envolvido no processo de controle de qualidade.

O desafio não é apenas com línguas estrangeiras. Existem algumas diferenças regionais interessantes também. Por exemplo, o inglês tem variações ortográficas para os EUA, Reino Unido, Austrália, Canadá, etc. Além disso, existem diferenças gramaticais. No inglês britânico você “tem uma olhada”, enquanto no inglês americano você “dá uma olhada”. O significado das palavras também pode variar de um lugar para outro. Uma “borracha” é uma borracha no Reino Unido, mas um preservativo na América do Norte! Para que os sistemas NLG sejam usados para aplicativos de negócios, eles precisam lidar com todas essas sutilezas.

Você também poderia compartilhar alguns detalhes sobre como o aprendizado profundo é usado no Phrasee?

Existem 2 componentes principais de IA na tecnologia da Phrasee. A primeira é a Natural Language Generation (NLG), que na verdade produz a linguagem. A segunda é o aprendizado profundo, e o foco aqui é o desempenho. Desempenho pode significar coisas diferentes dependendo do contexto. Por exemplo, o objetivo de uma linha de assunto de e-mail é induzir o destinatário a abrir o e-mail e ver seu conteúdo. Para o Facebook, o objetivo pode ser maximizar curtidas ou compartilhamentos. Dados grandes volumes de dados históricos, é possível encontrar tendências e padrões sutis que nunca seriam percebidos por um ser humano. Este é um problema padrão de aprendizado de máquina.

O aprendizado profundo oferece algumas vantagens sobre a abordagem tradicional de aprendizado de máquina. Com o aprendizado de máquina tradicional, há um forte foco na “engenharia de recursos”. Isso significa que o desenvolvedor precisa decidir o que acredita serem os recursos mais importantes da linguagem. por exemplo, palavras, comprimento, uso de emoji, etc. O problema é que isso é limitado pela habilidade e imaginação do engenheiro. No entanto, com o aprendizado profundo, o texto bruto é inserido no modelo e ele constrói sua própria representação de máquina da linguagem (isso é conhecido como aprendizado de ponta a ponta). Portanto, é livre de viés humano e é uma abordagem poderosa. No entanto, a desvantagem é que pode ser difícil entender por que o modelo se comporta dessa maneira. “Explicabilidade” é uma área ativa de pesquisa dentro da comunidade de aprendizagem profunda. No entanto, há uma compensação fundamental entre a complexidade de um sistema e nossa capacidade de entendê-lo. A linguagem humana é confusa, então as soluções bem-sucedidas de PNL normalmente têm um alto grau de complexidade.

Uma das funcionalidades do Phrasee é a capacidade de escrever no tom único de uma marca, você poderia detalhar como isso é feito?

Quando cadastramos um novo cliente, a primeira coisa que fazemos é coletar informações sobre o estilo de comunicação de sua marca. Isso inclui quaisquer diretrizes formais de marca, campanhas de marketing históricas e uma série de questionários que desenvolvemos para esse fim. Todas essas informações são usadas por uma equipe interna de técnicos linguísticos para construir um “modelo linguístico” específico do cliente. Nossos modelos de linguagem são generativos, o que significa que eles são capazes de produzir uma linguagem nunca antes vista no estilo exclusivo de um cliente.

Os modelos de linguagem podem ser atualizados a qualquer momento. Por exemplo, no momento estamos no auge da crise do COVID-19. Nossa equipe de idiomas está revisando nossos modelos para garantir que linguagem imprópria não seja criada. Uma frase como “Essas ofertas estão se tornando virais!” pode ter sido inofensivo alguns meses atrás, mas é claramente inapropriado em meio a uma pandemia global. Isso demonstra a flexibilidade do nosso sistema.

Que tipo de dados são necessários para uma empresa que deseja começar a usar o Phrasee?

Para ser honesto, não são necessários muitos dados para começar conosco. O primeiro passo é identificar uma área de projeto adequada. Por exemplo, podem ser as linhas de assunto de e-mails promocionais semanais. Idealmente, isso terá um público relativamente grande e as comunicações serão regulares. Uma vez identificado o projeto, precisamos de informações sobre o tema pretendido e a voz da marca para construir o modelo de linguagem. Phrasee precisa de resultados de desempenho de forma contínua. Como nossa solução usa aprendizado de máquina, é importante medir e rastrear as principais métricas ao longo do tempo. Essas informações são alimentadas de volta em nosso sistema para que ele possa otimizar continuamente o engajamento.

Há mais alguma coisa que você gostaria de compartilhar sobre Phrasee?

Quando Parry, Victoria e eu começamos a Phrasee, cinco anos atrás, tínhamos certeza de que seria apenas uma questão de tempo até que muitas outras startups surgissem com produtos semelhantes. Nosso plano era dar um salto na competição e ficar um passo à frente. No entanto, fomos surpreendidos com a falta de ingressantes neste espaço. Onde estão todos os outros? Acho que existem algumas razões para isso, mas uma das principais é que a linguagem é um problema tão difícil. Suspeito que outros tentaram criar produtos semelhantes, mas falharam no início dos estágios de P&D. Isso é uma prova de como nossa tecnologia é única.

Obrigado pela entrevista informativa sobre processamento de linguagem natural, geração de linguagem natural e aprendizado profundo. Para saber mais, os visitantes podem visitar Phrasee.