Connect with us

Líderes de pensamento

O Surgimento dos Dados Sintéticos e Por Que Eles Vão Aumentar em vez de Substituir os Dados Reais

mm

Elon Musk proclamou recentemente que esgotamos os dados humanos disponíveis para treinar modelos de IA. Seu aviso é o último comentário sobre a necessidade de novas fontes de dados se a IA for continuar seu progresso rápido. Em indústrias como saúde e finanças, regulamentações de privacidade rigorosas estão tornando a escassez de dados ainda mais aguda.

Enquanto os dados sintéticos – uma possível solução para essa escassez – não são novos, sua importância continua a crescer, como evidenciado pelos recentes surtos de fusões e investimentos nesse campo. No entanto, existem algumas incertezas profundas em torno do uso de dados sintéticos, notadamente o risco de colapso do modelo, onde a qualidade da saída de um modelo de linguagem grande (LLM) se deteriora sem dados do mundo real para treinar. Se esse problema se provar intransponível ou solucionável, pode ter um impacto significativo no futuro da IA gerativa (Gen AI).

O que são dados sintéticos e como são criados?

Os dados sintéticos são criados artificialmente em vez de coletados a partir de eventos reais. Os dados sintéticos gerados por IA são agora a forma mais comum, que envolve treinar modelos em dados do mundo real para detectar padrões e correlações, e então gerar novos dados que imitam essas propriedades estatísticas.

Os LLMs estão sendo usados para gerar uma variedade de tipos de dados sintéticos, incluindo dados estruturados, como dados tabulares, e dados não estruturados, como textos livres, vídeos e imagens. Uma variedade de métodos é usada, dependendo do tipo de dados sendo produzido.

Por exemplo, dois métodos comuns implantados para gerar dados de imagem sintéticos são GANs e modelos de difusão. Os GANs usam duas redes neurais: um gerador cria versões artificiais de dados reais, enquanto um discriminador identifica quais são reais versus gerados. Trabalhando juntos continuamente, o gerador tenta “enganar” o discriminador, melhorando continuamente a realidade e a diversidade dos dados artificiais. Os modelos de difusão adotam uma abordagem diferente, aprendendo a distorcer dados reais e então reverter esse processo para “desruído” os dados. Uma vez treinados efetivamente, eles podem produzir dados sintéticos de áudio e visual de alta qualidade.

A importância crescente dos dados sintéticos

Há um interesse de longa data em dados sintéticos. No entanto, nos últimos 5 anos, o desenvolvimento rápido dos LLMs aumentou a demanda por dados sintéticos e criou um meio cada vez mais eficaz de gerá-los em escala. Como resultado, o uso de dados sintéticos decolou.

A Gartner prevê que os dados sintéticos comporão 60% de todos os dados usados para treinar LLMs até 2024, subindo de apenas 1% em 2021. Há todos os motivos para acreditar que essa estimativa é amplamente precisa. Por exemplo, o modelo Phi-4 da Microsoft, que supera outros LLMs apesar de ser muito menor, foi treinado com sucesso em dados sintéticos em sua maioria. Enquanto isso, os engenheiros da Alexa da Amazon estão explorando o uso de um modelo “professor/aluno” onde o modelo “professor” gera dados sintéticos que são usados para ajustar um modelo “aluno” menor.

Essa adoção generalizada está sendo refletida por grandes movimentos no mercado. O setor de dados sintéticos viu um boom de investimentos em 2021-22. A Gretel AI e a Tonic.ai garantiram rodadas de série B de $50 milhões e $35 milhões, respectivamente. Isso foi seguido por a MOSTLY AI fechando uma rodada de série B de $25 milhões e a Synthesis AI garantindo $17 milhões em financiamento de série A.

Mais recentemente, a tendência tem sido em direção a aquisições em grande escala. A aquisição da Gretel pela NVIDIA esta primavera apoiará o trabalho da gigante tecnológica nesse campo. Da mesma forma, a empresa de soluções de IA, a SAS adquiriu a startup de dados sintéticos Hazy em novembro de 2024.

A firma de análise Cognilytica estimou o mercado de geração de dados sintéticos em 2021 em cerca de $110 milhões. A firma espera que ele atinja $1,15 bilhão até 2027. Outras previsões antecipam um CAGR de 31% para o setor, à medida que ele cresce para $2,33 bilhões em valor até 2030.

Colapso do modelo

No entanto, o potencial emocionante dos dados sintéticos vem com um lado negativo significativo: o colapso do modelo. Isso é um fenômeno onde os LLMs treinados apenas com dados sintéticos começam a produzir saídas menos precisas ou menos diversificadas.

Enquanto os dados do mundo real tendem a ser altos em complexidade, os dados sintéticos são frequentemente simplificados e condensados por modelos. Por exemplo, os pesquisadores descobriram que a precisão de um modelo treinado para detectar molés cancerígenas em fotografias era inversamente relacionada à quantidade de dados de treinamento sintéticos. Um estudo recente de acadêmicos de Oxford, Cambridge, Imperial College e da Universidade de Toronto encontrou que o uso de dados gerados por modelo indiscriminadamente levou a “defeitos irreversíveis no modelo resultante”.

Pior ainda, a maioria dos LLMs são “caixas pretas”, tornando difícil entender como eles responderão a dados sintéticos. Pesquisadores da Universidade de Rice e Stanford concluíram que, sem alguns dados do mundo real frescos, “os modelos gerativos futuros estão condenados a ter sua qualidade (precisão) ou diversidade (recorrência) diminuída progressivamente”.

A necessidade contínua de dados do mundo real

Evidentemente, mesmo com o aumento da demanda por dados sintéticos, a necessidade de dados do mundo real permanece. Na verdade, a demanda por dados do mundo real de alta qualidade pode até aumentar. O motivo disso é duplo. Primeiramente, os dados do mundo real sempre serão necessários para treinar os modelos de IA que, por sua vez, geram os dados sintéticos. E, em segundo lugar, para evitar o colapso do modelo, é necessário sincronizar continuamente os dados sintéticos com os dados do mundo real.

Dados reais para treinar modelos de IA que produzem dados sintéticos

Como mencionado anteriormente, a maioria dos dados sintéticos hoje é criada usando Gen AI. E esses modelos Gen AI devem ser treinados em dados do mundo real para criar dados sintéticos usáveis. Isso ocorre porque eles só podem criar dados sintéticos replicando os padrões e propriedades estatísticas de um conjunto de dados do mundo real.

Considere o exemplo recente de uma empresa de seguros que foi capaz de usar dados sintéticos para testar diferentes fornecedores sem comprometer seus dados de clientes sensíveis. Para gerar esse conjunto de dados sintéticos, que imitava a realidade com precisão, foi necessário usar seus próprios dados do mundo real para treinar o modelo de IA que, por sua vez, gerou os dados sintéticos.

Dados reais para mitigar o colapso do modelo

Existem várias estratégias para mitigar o risco de colapso do modelo. Essas incluem validar e, em seguida, revisar regularmente conjuntos de dados sintéticos e verificar a qualidade dos dados sintéticos antes de usá-los em modelos gerativos. No entanto, a abordagem mais comum é diversificar os dados usados combinando dados sintéticos com dados humanos. A pesquisa da Gartner encontrou que 63% dos respondentes favorecem o uso de um conjunto de dados parcialmente sintéticos, com apenas 13% dizendo que usam dados sintéticos totalmente.

Mesmo adicionando quantidades modestas de dados do mundo real pode melhorar significativamente o desempenho de um modelo. Pesquisadores da Universidade do Sul da Califórnia encontraram que as empresas podem substituir até 90% de seus dados reais por dados sintéticos sem ver uma queda substancial no desempenho. No entanto, substituir esses 10% finais de dados humanos resulta em uma declínio significativo.

A qualidade também conta, como ilustrado pelo caso do sucesso da Microsoft com o Phi-4. Esse LLM foi treinado em dados sintéticos predominantemente gerados pelo GPT-4o. No entanto, grande parte dos dados de pré-treinamento – um conjunto de dados geral usado para a primeira etapa de treinamento antes de um modelo ser ajustado – era dados do mundo real de alta qualidade, cuidadosamente curados, incluindo livros e artigos de pesquisa.

Benefícios potenciais que os dados sintéticos podem trazer

Quando os dados sintéticos são usados de forma inteligente e combinados efetivamente com dados do mundo real, eles têm o potencial de resolver seis problemas específicos quando se trata de dados de treinamento de IA: escassez, acessibilidade, homogeneidade, viés, problemas de privacidade e custo.

Escassez de dados

À medida que as empresas de IA competem para ganhar participação de mercado e alcançar novos marcos, a demanda insaciável por dados para treinar seus LLMs aumenta. Os dados sintéticos têm o potencial de preencher essa lacuna, pelo menos de acordo com pesquisa da Gartner. No entanto, deve-se notar que usar quantidades significativas de dados reais em conjuntos de dados de pré-treinamento e para sincronização para evitar o colapso do modelo ainda será necessário.

Acessibilidade de dados

Cada vez mais, as grandes empresas de tecnologia estão agindo como guardiãs quando se trata de dados, criando uma barreira de entrada para os jogadores menores. Os dados sintéticos têm o potencial de democratizar a IA gerativa, tornando grandes volumes de dados de treinamento acessíveis e acessíveis. No entanto, isso não removerá a responsabilidade das grandes empresas de tecnologia de melhorar o acesso a dados do mundo real, pois eles ainda são necessários para treinar modelos que criam dados sintéticos.

Homogeneidade de dados

Em alguns casos de uso de nicho, como treinar AIs para direção autônoma, os conjuntos de dados do mundo real são muito homogêneos. Nesse caso, os desenvolvedores podem gerar dados sintéticos para preencher lacunas nos dados para situações incomuns. Isso permite que os modelos sejam treinados para ocorrências raras na estrada.

Viés

Alguns conjuntos de dados do mundo real contêm vieses inerentes, então os dados sintéticos podem ser gerados para garantir que os modelos de IA recebam uma visão mais equilibrada. Por exemplo, no setor financeiro, a Autoridade de Conduta Financeira do Reino Unido (FCA) argumentou que os dados sintéticos têm o potencial de contrariar vieses potenciais causados porque certos grupos estão subrepresentados em conjuntos de dados humanos.

Privacidade

Em setores como saúde e finanças, os requisitos de privacidade estão tornando a escassez de dados mais aguda. Com os dados sintéticos, as empresas podem construir conjuntos de dados de treinamento para seus modelos que contenham dados de nicho sem comprometer a privacidade do cliente. No entanto, como um relatório encomendado pela Royal Society do Reino Unido apontou com referência a dados sintéticos em pesquisa médica, há uma suposição de que os dados sintéticos são “inherentemente privados”. Isso é um “mal-entendido”. Como os pesquisadores apontam, os dados sintéticos podem vazar informações sobre os dados de que foram derivados.

Especificamente, os modelos treinados em dados sensíveis são vulneráveis a ataques de inversão de modelo, onde os hackers são capazes de reconstruir porções de um conjunto de dados original.

Custo

Em geral, os dados sintéticos são gerados a um custo mais baixo do que os dados do mundo real. Eles também vêm rotulados, o que economiza tempo e custos. Em alguns projetos de treinamento de IA, até 80% do projeto é dedicado à preparação de dados, incluindo rotulagem. Isso explica por que empresas dedicadas surgiram especificamente para fornecer mão de obra de baixo custo para atender às necessidades de processamento de dados dos gigantes do Vale do Silício.

Aumentando em vez de substituir os dados reais

Esses benefícios dos dados sintéticos podem ser aproveitados, desde que não sejam tratados como uma substituição para os dados reais. Em vez disso, seu papel deve ser o de aumentar os conjuntos de dados reais, fornecendo maneiras de aumentar a escala dos pontos de dados disponíveis.

Para contextualizar, o próximo LLM da Meta, o LLAMA Behemoth, está sendo treinado em 30 trilhões de pontos de dados. Claramente, encontrar dados do mundo real nessa escala é desafiador, se não impossível. No entanto, como foi notado, usar dados do mundo real ainda é uma necessidade, seja para treinar os modelos que produzem dados sintéticos ou para sincronizar com dados sintéticos para garantir a precisão e evitar o colapso do modelo. Na escala em que os LLMs estão trabalhando agora, mesmo que os dados sintéticos componham uma proporção significativa dos dados de treinamento usados, ainda haverá uma demanda substancial por dados do mundo real. E isso significa que ainda haverá questões complexas a serem resolvidas em torno de gatekeeping, acesso, viés, custo e tempo.

Por mais de 13 anos, Gediminas Rickevicius tem sido uma força de crescimento em empresas líderes de mercado de TI, publicidade e logística em todo o mundo. Ele tem mudado a abordagem tradicional ao desenvolvimento de negócios e vendas, integrando big data na tomada de decisões estratégicas. Como Senior VP de Parcerias Globais da Oxylabs, Gediminas continua sua missão de empoderar empresas com soluções de coleta de dados da web pública de ponta.