Líderes de pensamento
Dilema de Dados da IA: Privacidade, Regulação e o Futuro da IA Ética

Soluções impulsionadas por IA estão sendo rapidamente adotadas em diversas indústrias, serviços e produtos todos os dias. No entanto, sua eficácia depende inteiramente da qualidade dos dados nos quais são treinados – um aspecto frequentemente mal entendido ou negligenciado no processo de criação de conjuntos de dados.
À medida que as autoridades de proteção de dados aumentam a vigilância sobre como as tecnologias de IA se alinham com as regulamentações de privacidade e proteção de dados, as empresas enfrentam uma pressão crescente para obter, anotar e refinar conjuntos de dados de maneira compatível e ética.
Existe realmente uma abordagem ética para a construção de conjuntos de dados de IA? Quais são os maiores desafios éticos das empresas e como eles os estão abordando? E como as estruturas legais em evolução impactam a disponibilidade e o uso de dados de treinamento? Vamos explorar essas perguntas.
Privacidade de Dados e IA
Por sua natureza, a IA exige muitos dados pessoais para executar tarefas. Isso levantou preocupações sobre a coleta, armazenamento e uso dessas informações. Muitas leis em todo o mundo regulamentam e limitam o uso de dados pessoais, desde o GDPR e a nova Lei de IA na Europa até o HIPAA nos EUA, que regula o acesso a dados de pacientes na indústria médica.
Referência para saber quão estritas são as leis de proteção de dados em todo o mundo / DLA Piper
Por exemplo, catorze estados dos EUA atualmente têm leis abrangentes de privacidade de dados, com seis mais para entrar em vigor em 2025 e início de 2026. A nova administração sinalizou uma mudança em sua abordagem para a aplicação da privacidade de dados em nível federal. Um foco principal é a regulação da IA, enfatizando o fomento da inovação em vez de impor restrições. Essa mudança inclui revogar ordens executivas anteriores sobre IA e introduzir novas diretrizes para orientar seu desenvolvimento e aplicação.
A legislação de proteção de dados está evoluindo em vários países: na Europa, as leis são mais estritas, enquanto na Ásia ou na África, elas tendem a ser menos rigorosas.
No entanto, informações de identificação pessoal (PII) — como imagens faciais, documentos oficiais como passaportes, ou quaisquer outros dados pessoais sensíveis — são geralmente restritos na maioria dos países em algum grau. De acordo com a UNCTAD, a coleta, uso e compartilhamento de informações pessoais para terceiros sem aviso ou consentimento dos consumidores é uma grande preocupação para a maioria do mundo. 137 de 194 países têm regulamentações que garantem a proteção de dados e privacidade. Como resultado, a maioria das empresas globais toma precauções extensas para evitar o uso de PII para treinamento de modelos, pois regulamentações como as da UE proíbem estritamente tais práticas, com raras exceções encontradas em nichos altamente regulamentados, como aplicação da lei.
Com o tempo, as leis de proteção de dados estão se tornando mais abrangentes e globalmente aplicadas. As empresas adaptam suas práticas para evitar desafios legais e atender às exigências legais e éticas emergentes.
Quais Métodos as Empresas Usam para Obter Dados?
Então, ao estudar questões de proteção de dados para treinamento de modelos, é essencial primeiro entender de onde as empresas obtêm esses dados. Existem três fontes principais de dados.
- Coleta de dados
Esse método permite a coleta de dados de plataformas de crowdsourcing, estoques de mídia e conjuntos de dados de código aberto.
É importante notar que os estoques de mídia públicos estão sujeitos a diferentes acordos de licenciamento. Mesmo uma licença para uso comercial muitas vezes declara explicitamente que o conteúdo não pode ser usado para treinamento de modelos. Essas expectativas diferem de plataforma para plataforma e exigem que as empresas confirmem sua capacidade de usar o conteúdo da maneira que precisam.
Mesmo quando as empresas de IA obtêm o conteúdo legalmente, elas ainda podem enfrentar alguns problemas. O avanço rápido do treinamento de modelos de IA ultrapassou os quadros legais, significando que as regras e regulamentações em torno dos dados de treinamento de IA ainda estão evoluindo. Como resultado, as empresas devem estar informadas sobre os desenvolvimentos legais e revisar cuidadosamente os acordos de licenciamento antes de usar o conteúdo de estoque para treinamento de IA.
- Criação de dados
Um dos métodos mais seguros de preparação de conjuntos de dados envolve a criação de conteúdo único, como filmar pessoas em ambientes controlados, como estúdios ou locais ao ar livre. Antes de participar, os indivíduos assinam um formulário de consentimento para usar seus dados de identificação pessoal, especificando quais dados estão sendo coletados, como e onde serão usados e quem terá acesso a eles. Isso garante proteção legal total e dá às empresas a confiança de que não enfrentarão alegações de uso ilegal de dados.
A principal desvantagem desse método é seu custo, especialmente quando os dados são criados para casos de bordo ou projetos em grande escala. No entanto, grandes empresas e empresas estão cada vez mais usando essa abordagem por pelo menos duas razões. Primeiro, garante a conformidade total com todos os padrões e regulamentações legais. Segundo, fornece às empresas dados totalmente personalizados para seus cenários e necessidades específicas, garantindo a maior precisão no treinamento do modelo.
- Geração de dados sintéticos
Usar ferramentas de software para criar imagens, texto ou vídeos com base em um cenário dado. No entanto, os dados sintéticos têm limitações: são gerados com base em parâmetros pré-definidos e carecem da variabilidade natural dos dados reais.
Essa falta pode afetar negativamente os modelos de IA. Embora não seja relevante para todos os casos e não aconteça sempre, é importante lembrar do “colapso do modelo” — um ponto em que a dependência excessiva de dados sintéticos faz com que o modelo se degrade, levando a saídas de baixa qualidade.
Os dados sintéticos ainda podem ser altamente eficazes para tarefas básicas, como reconhecer padrões gerais, identificar objetos ou distinguir elementos visuais fundamentais, como faces.
No entanto, não é a melhor opção quando uma empresa precisa treinar um modelo completamente do zero ou lidar com cenários raros ou altamente específicos.
As situações mais reveladoras ocorrem em ambientes de cabine, como um motorista distraído por uma criança, alguém parecendo cansado ao volante ou até mesmo instâncias de direção imprudente. Esses pontos de dados não estão comumente disponíveis em conjuntos de dados públicos — nem deveriam estar — pois envolvem indivíduos reais em configurações privadas. Como os modelos de IA dependem de dados de treinamento para gerar saídas sintéticas, eles lutam para representar cenários que nunca encontraram com precisão.
Quando os dados sintéticos falham, os dados criados — coletados em ambientes controlados com atores reais — se tornam a solução.
Fornecedores de soluções de dados, como Keymakr, colocam câmeras em carros, contratam atores e gravam ações, como cuidar de um bebê, beber de uma garrafa ou mostrar sinais de fadiga. Os atores assinam contratos explicitamente consentindo no uso de seus dados para treinamento de IA, garantindo a conformidade com as leis de privacidade.
Responsabilidades no Processo de Criação de Conjuntos de Dados
Cada participante no processo, desde o cliente até a empresa de anotação, tem responsabilidades específicas delineadas em seu acordo. O primeiro passo é estabelecer um contrato, que detalha a natureza da relação, incluindo cláusulas de não divulgação e propriedade intelectual.
Vamos considerar a primeira opção para trabalhar com dados, ou seja, quando eles são criados do zero. Os direitos de propriedade intelectual afirmam que qualquer dado que o fornecedor crie pertence à empresa que contratou, significando que é criado em seu nome. Isso também significa que o fornecedor deve garantir que os dados sejam obtidos legalmente e de forma adequada.
Como uma empresa de soluções de dados, a Keymakr garante a conformidade dos dados, verificando primeiro a jurisdição em que os dados estão sendo criados, obtendo o consentimento adequado de todos os indivíduos envolvidos e garantindo que os dados possam ser legalmente usados para treinamento de IA.
Também é importante notar que, uma vez que os dados são usados para treinamento de modelos de IA, torna-se quase impossível determinar quais dados específicos contribuíram para o modelo, pois a IA os mistura todos. Então, a saída específica não tende a ser sua saída, especialmente quando se discute milhões de imagens.
Devido ao seu rápido desenvolvimento, essa área ainda estabelece diretrizes claras para a distribuição de responsabilidades. Isso é semelhante às complexidades que cercam carros autônomos, onde questões sobre responsabilidade — se é o motorista, o fabricante ou a empresa de software — ainda exigem uma distribuição clara.
Em outros casos, quando um provedor de anotação recebe um conjunto de dados para anotação, ele assume que o cliente obteve os dados legalmente. Se houver sinais claros de que os dados foram obtidos ilegalmente, o provedor deve relatá-los. No entanto, tais casos óbvios são extremamente raros.
Também é importante notar que grandes empresas, corporações e marcas que valorizam sua reputação são muito cuidadosas sobre onde obtêm seus dados, mesmo que não tenham sido criados do zero, mas obtidos de outras fontes legais.
Em resumo, a responsabilidade de cada participante no processo de trabalho com dados depende do acordo. Você poderia considerar esse processo como parte de uma cadeia de “sustentabilidade” mais ampla, onde cada participante tem um papel crucial na manutenção de padrões legais e éticos.
Quais Mal-entendidos Existem Sobre o Desenvolvimento de IA?
Um grande mal-entendido sobre o desenvolvimento de IA é que os modelos de IA funcionam de forma semelhante a motores de busca, reunindo e agregando informações para apresentar aos usuários com base no conhecimento aprendido. No entanto, os modelos de IA, especialmente os modelos de linguagem, muitas vezes funcionam com base em probabilidades em vez de compreensão genuína. Eles preveem palavras ou termos com base na probabilidade estatística, usando padrões vistos em dados anteriores. A IA não “sabe” nada; ela extrapola, adivinha e ajusta probabilidades.
Além disso, muitos presumem que o treinamento de IA exige conjuntos de dados enormes, mas muito do que a IA precisa reconhecer — como cães, gatos ou humanos — já está bem estabelecido. O foco agora está em melhorar a precisão e refinar os modelos, em vez de reinventar capacidades de reconhecimento. Grande parte do desenvolvimento de IA hoje gira em torno de fechar as pequenas lacunas restantes de precisão, em vez de começar do zero.
Desafios Éticos e Como o Ato de IA da União Europeia e a Mitigação das Regulamentações dos EUA Impactarão o Mercado Global de IA
Ao discutir a ética e a legalidade do trabalho com dados, também é importante entender claramente o que define “ética” em IA.
O maior desafio ético que as empresas enfrentam hoje em IA é determinar o que é considerado inaceitável para a IA fazer ou ser ensinada. Há um consenso amplo de que a IA ética deve ajudar em vez de prejudicar os humanos e evitar a decepção. No entanto, os sistemas de IA podem cometer erros ou “alucinar”, o que desafia a determinação de se esses erros se qualificam como desinformação ou dano.
A ética da IA é um debate importante com organizações como a UNESCO se envolvendo — com princípios-chave em torno de auditoria e rastreabilidade de saídas.
Os quadros legais que cercam o acesso a dados e o treinamento de IA desempenham um papel significativo em moldar o cenário ético da IA. Países com menos restrições ao uso de dados permitem que os dados de treinamento sejam mais acessíveis, enquanto as nações com leis de dados mais estritas limitam a disponibilidade de dados para o treinamento de IA.
Por exemplo, a Europa, que adotou o Ato de IA, e os EUA, que revogaram muitas regulamentações de IA, oferecem abordagens contrastantes que indicam o cenário global atual.
O Ato de IA da União Europeia está tendo um impacto significativo nas empresas que operam na Europa. Ele impõe um quadro regulatório estrito, tornando difícil para as empresas usarem ou desenvolverem certos modelos de IA. As empresas devem obter licenças específicas para trabalhar com certas tecnologias, e em muitos casos, as regulamentações efetivamente tornam difícil para as pequenas empresas cumprir com essas regras.
Como resultado, algumas startups podem optar por deixar a Europa ou evitar operar lá completamente, semelhante ao impacto visto com as regulamentações de criptomoedas. As grandes empresas que podem investir nos recursos necessários para atender aos requisitos de conformidade podem se adaptar. No entanto, o Ato pode impulsionar a inovação de IA para fora da Europa em favor de mercados como os EUA ou Israel, onde as regulamentações são menos rigorosas.
A decisão dos EUA de investir recursos significativos no desenvolvimento de IA com menos restrições também pode ter desvantagens, mas convidará mais diversidade para o mercado. Enquanto a União Europeia se concentra na segurança e na conformidade regulatória, os EUA provavelmente fomentarão mais experimentação arriscada e inovação de ponta.













