Entre em contato

Líderes de pensamento

A preparação de dados humanos para aprendizado de máquina exige muitos recursos: essas duas abordagens são essenciais para reduzir custos

mm

Publicado

 on

Por: Dattaraj Rao, cientista-chefe de dados, Sistemas Persistentes

Como acontece com qualquer sistema que depende de entradas de dados, o Aprendizado de Máquina (ML) está sujeito ao axioma de “lixo entra lixo sai”. Dados limpos e rotulados com precisão são a base para a construção de qualquer modelo de ML. Um algoritmo de treinamento de ML entende padrões de dados reais e, a partir daí, aprende maneiras de generalizar em dados invisíveis. Se a qualidade dos seus dados de treinamento for baixa, será muito difícil para o algoritmo de ML aprender e extrapolar continuamente.

Pense nisso em termos de treinar um cão de estimação. Se você não treinar adequadamente o cão com comandos comportamentais fundamentais (entradas) ou fizer isso de maneira incorreta/imprecisa, nunca poderá esperar que o cão aprenda e se expanda por meio da observação para comportamentos positivos mais complexos porque as entradas subjacentes estavam ausentes ou falhas, para começar com. O treinamento adequado é demorado e até caro se você contratar um especialista, mas a recompensa é grande se você fizer isso desde o início.

Ao treinar um modelo de ML, a criação de dados de qualidade exige que um especialista no domínio gaste tempo anotando os dados. Isso pode incluir selecionar uma janela com o objeto desejado em uma imagem ou atribuir um rótulo a uma entrada de texto ou registro de banco de dados. Particularmente para dados não estruturados como imagens, vídeos e texto, a qualidade da anotação desempenha um papel importante na determinação da qualidade do modelo. Normalmente, dados não rotulados, como imagens e texto brutos, são abundantes – mas é na rotulagem que o esforço precisa ser otimizado. Esta é a parte humana do ciclo de vida de ML e geralmente é a parte mais cara e trabalhosa de qualquer projeto de ML.

Ferramentas de anotação de dados como Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS e DataRobot human-in-the-loop estão melhorando constantemente em qualidade e fornecendo interfaces intuitivas para especialistas de domínio. No entanto, minimizar o tempo necessário para os especialistas de domínio anotar dados ainda é um desafio significativo para as empresas hoje – especialmente em um ambiente onde o talento em ciência de dados é limitado, mas em alta demanda. É aqui que entram em jogo duas novas abordagens para a preparação de dados.

Aprendizado ativo

O aprendizado ativo é um método em que um modelo de ML consulta ativamente um especialista de domínio para anotações específicas. Aqui, o foco não é obter uma anotação completa em dados não rotulados, mas apenas obter os pontos de dados corretos anotados para que o modelo possa aprender melhor. Tomemos, por exemplo, Healthcare & Life Sciences, uma empresa de diagnóstico especializada na detecção precoce do câncer para ajudar os médicos a tomar decisões informadas e baseadas em dados sobre o atendimento ao paciente. Como parte do processo de diagnóstico, eles precisam anotar imagens de tomografia computadorizada com tumores que precisam ser destacados.

Depois que o modelo de ML aprender com algumas imagens com blocos de tumor marcados, com aprendizado ativo, o modelo solicitará apenas que os usuários anotem as imagens nas quais não tiver certeza da presença de um tumor. Esses serão os pontos de contorno que, quando anotados, aumentarão a confiança do modelo. Onde o modelo estiver confiante acima de um determinado limite, ele fará uma auto-anotação em vez de pedir ao usuário para anotar. É assim que o aprendizado ativo tenta ajudar a construir modelos precisos, reduzindo o tempo e o esforço necessários para anotar dados. Estruturas como o modAL podem ajudar a aumentar o desempenho da classificação consultando especialistas de domínio de maneira inteligente para rotular as instâncias mais informativas.

Supervisão Fraca

A supervisão fraca é uma abordagem em que dados ruidosos e imprecisos ou conceitos abstratos podem ser usados ​​para fornecer indicações para rotular uma grande quantidade de dados não supervisionados. Essa abordagem geralmente faz uso de rotuladores fracos e tenta combiná-los em uma abordagem de conjunto para criar dados anotados de qualidade. O esforço é tentar incorporar conhecimento de domínio em uma atividade de rotulagem automatizada.

Por exemplo, se um provedor de serviços de Internet (ISP) precisasse de um sistema para sinalizar conjuntos de dados de e-mail como spam ou não spam, poderíamos escrever regras fracas, como verificar frases como “oferta”, “parabéns”, “grátis” etc., que estão principalmente associados a e-mails de spam. Outras regras podem ser e-mails de padrões específicos de endereços de origem que podem ser pesquisados ​​por expressões regulares. Essas funções fracas poderiam então ser combinadas por uma estrutura de supervisão fraca como Snorkel e Skweak para construir dados de treinamento de melhor qualidade.

A essência do ML é ajudar as empresas a dimensionar processos exponencialmente de maneiras que são fisicamente impossíveis de alcançar manualmente. No entanto, ML não é mágico e ainda depende de humanos para a) configurar e treinar os modelos adequadamente desde o início e b) intervir quando necessário para garantir que o modelo não fique tão distorcido onde os resultados não são mais úteis e pode ser contraproducente ou negativo.

O objetivo é encontrar maneiras que ajudem a simplificar e automatizar partes do envolvimento humano para aumentar o tempo de lançamento no mercado e os resultados, mas mantendo a precisão ideal. É universalmente aceito que obter dados anotados de qualidade é a parte mais cara, mas extremamente importante de um projeto de ML. Este é um espaço em evolução, e muito esforço está sendo feito para reduzir o tempo gasto por especialistas de domínio e melhorar a qualidade das anotações de dados. Explorar e alavancar o aprendizado ativo e a supervisão fraca é uma estratégia sólida para conseguir isso em vários setores e casos de uso.

Dattaraj Rao, cientista-chefe de dados da Sistemas Persistentes, é autor do livro “Keras to Kubernetes: The Journey of a Machine Learning Model to Production”. Na Persistent Systems, Dattaraj lidera o AI Research Lab que explora algoritmos de ponta em Visão Computacional, Compreensão de Linguagem Natural, Programação Probabilística, Aprendizagem por Reforço, IA Explicável, etc. e demonstra aplicabilidade nos domínios da Saúde, Bancário e Industrial. Dattaraj tem 11 patentes em Machine Learning e Computer Vision.