Inteligência artificial
O problema do plágio: como os modelos generativos de IA reproduzem conteúdo protegido por direitos autorais

Os rápidos avanços na IA generativa despertaram entusiasmo quanto ao potencial criativo da tecnologia. No entanto, esses modelos poderosos também representam riscos preocupantes em relação à reprodução de conteúdo protegido por direitos autorais ou plagiado sem a devida atribuição.
Como as redes neurais absorvem dados de treinamento
Sistemas modernos de IA, como o GPT-3, são treinados por meio de um processo chamado aprendizagem por transferência. Eles ingerem enormes conjuntos de dados extraídos de fontes públicas, como sites, livros, artigos acadêmicos e muito mais. Por exemplo, os dados de treinamento do GPT-3 abrangeram 570 gigabytes de texto. Durante o treinamento, a IA busca padrões e relações estatísticas nesse vasto conjunto de dados. Ela aprende as correlações entre palavras, frases, parágrafos, estrutura da linguagem e outras características.
Isso permite que a IA gere novos textos ou imagens coerentes, prevendo sequências que provavelmente seguirão uma determinada entrada ou prompt. Mas também significa que esses modelos absorvem conteúdo sem levar em conta direitos autorais, atribuição ou riscos de plágio. Como resultado, as IAs generativas podem reproduzir involuntariamente passagens textuais ou parafrasear textos protegidos por direitos autorais de seus corpora de treinamento.
Principais exemplos de plágio de IA
Preocupações com plágio de IA surgiram com destaque desde 2020, após o lançamento do GPT.
Uma pesquisa recente mostrou que grandes modelos de linguagem (LLMs) como o GPT-3 podem reproduzir passagens literais substanciais de seus dados de treinamento sem citação (Nasr et al., 2023; Carlini et al., 2022). Por exemplo, uma ação judicial movida pelo The New York Times revelou que o software OpenAI gerava artigos do New York Times quase literalmente (O jornal New York Times, 2023).
Essas descobertas sugerem que alguns sistemas de IA generativa podem produzir resultados plagiários não solicitados, correndo o risco de violação de direitos autorais. No entanto, a prevalência permanece incerta devido à natureza de "caixa preta" dos LLMs. O processo do New York Times argumenta que tais resultados constituem violação, o que pode ter implicações importantes para o desenvolvimento da IA generativa. De modo geral, as evidências indicam que o plágio é um problema inerente a grandes modelos de redes neurais, exigindo vigilância e salvaguardas.
Esses casos revelam dois fatores principais que influenciam os riscos de plágio de IA:
- Tamanho do modelo – Modelos maiores como GPT-3.5 são mais propensos a regenerar passagens de texto literais em comparação com modelos menores. Seus maiores conjuntos de dados de treinamento aumentam a exposição a materiais de origem protegidos por direitos autorais.
- Dados de treinamento – Modelos treinados em dados copiados da Internet ou obras protegidas por direitos autorais (mesmo que licenciados) têm maior probabilidade de plagiar em comparação com modelos treinados em conjuntos de dados cuidadosamente selecionados.
No entanto, medir diretamente a prevalência de resultados plágios é um desafio. A natureza de “caixa preta” das redes neurais torna difícil rastrear completamente essa ligação entre os dados de treinamento e os resultados do modelo. As taxas provavelmente dependem muito da arquitetura do modelo, da qualidade do conjunto de dados e da formulação imediata. Mas estes casos confirmam inequivocamente que tal plágio de IA ocorre, o que tem implicações legais e éticas críticas.
Sistemas emergentes de detecção de plágio
Em resposta, os pesquisadores começaram a explorar sistemas de IA para detectar automaticamente textos e imagens gerados por modelos em vez de criados por humanos. Por exemplo, os pesquisadores da Mila propuseram o GenFace, que analisa padrões linguísticos indicativos de texto escrito por IA. A Startup Anthropic também desenvolveu recursos internos de detecção de plágio para sua IA conversacional Claude.
No entanto, essas ferramentas têm limitações. Os enormes dados de treinamento de modelos como o GPT-3 tornam difícil, se não impossível, localizar fontes originais de texto plagiado. Serão necessárias técnicas mais robustas à medida que os modelos generativos continuam a evoluir rapidamente. Até então, a revisão manual continua a ser essencial para rastrear resultados de IA potencialmente plagiados ou infratores antes do uso público.
Melhores práticas para mitigar o plágio de IA generativa
Aqui estão algumas práticas recomendadas que desenvolvedores e usuários de IA podem adotar para minimizar os riscos de plágio:
Para desenvolvedores de IA:
- Examine cuidadosamente as fontes de dados de treinamento para excluir materiais protegidos por direitos autorais ou licenciados sem as devidas permissões.
- Desenvolva documentação de dados rigorosa e procedimentos de rastreamento de procedência. Grave metadados como licenças, tags, criadores, etc.
- Implemente ferramentas de detecção de plágio para sinalizar conteúdo de alto risco antes do lançamento.
- Forneça relatórios de transparência detalhando fontes de dados de treinamento, licenciamento e origens dos resultados de IA quando surgirem preocupações.
- Permita que os criadores de conteúdo optem facilmente por não receber conjuntos de dados de treinamento. Atenda rapidamente às solicitações de remoção ou exclusão.
Para usuários de IA generativa:
- Examine minuciosamente os resultados em busca de passagens potencialmente plagiadas ou não atribuídas antes de implantá-las em escala.
- Evite tratar a IA como sistemas criativos totalmente autônomos. Faça com que revisores humanos examinem o conteúdo final.
- Favorecer a criação humana assistida por IA em vez da geração de conteúdo inteiramente novo do zero. Em vez disso, use modelos para parafrasear ou idealizar.
- Consulte os termos de serviço, as políticas de conteúdo e as salvaguardas contra plágio do provedor de IA antes de usar. Evite modelos opacos.
- Cite as fontes claramente se algum material protegido por direitos autorais aparecer no resultado final, apesar dos melhores esforços. Não apresente trabalhos de IA como inteiramente originais.
- Limitar a partilha de resultados de forma privada ou confidencial até que os riscos de plágio possam ser melhor avaliados e abordados.
Regulamentações mais rigorosas sobre dados de treinamento também podem ser justificadas à medida que os modelos generativos continuam a proliferar. Isso pode envolver a exigência do consentimento dos criadores antes que seu trabalho seja adicionado aos conjuntos de dados. No entanto, cabe aos desenvolvedores e aos usuários a responsabilidade de empregar práticas éticas de IA que respeitem os direitos dos criadores de conteúdo.
Plágio no V6 Alpha de Midjourney
Após solicitação limitada Modelo V6 da Midjourney alguns pesquisadores conseguiram gerar imagens quase idênticas a filmes, programas de TV e capturas de tela de videogame protegidos por direitos autorais, provavelmente incluídos em seus dados de treinamento.
Esses experimentos confirmam ainda que mesmo os sistemas de IA visual de última geração podem plagiar inadvertidamente conteúdo protegido se a fonte de dados de treinamento não for verificada. Sublinha a necessidade de vigilância, salvaguardas e supervisão humana ao implementar comercialmente modelos generativos para limitar os riscos de infração.
Resposta das empresas de IA sobre conteúdo protegido por direitos autorais
Os limites entre a criatividade humana e a criatividade da IA estão se confundindo, criando questões complexas de direitos autorais. Trabalhos que combinam contribuições humanas e de IA só podem ser protegidos por direitos autorais em aspectos executados exclusivamente por humanos.
O Escritório de Direitos Autorais dos EUA negou recentemente os direitos autorais à maioria dos aspectos de uma história em quadrinhos com IA e humanos, considerando a arte de IA não humana. Também emitiu diretrizes excluindo sistemas de IA da "autoria". Tribunais federais confirmaram essa posição em um caso de direitos autorais envolvendo arte de IA.
Enquanto isso, ações judiciais alegam violação de IA generativa, como Getty v. Stability AI e artistas v. Meio da jornada/Estabilidade da IA. Mas sem os "autores" da IA, alguns questionam se as alegações de violação se aplicam.
Em resposta, grandes empresas de IA como Meta, Google, Microsoft e Apple argumentaram que não deveriam precisar de licenças ou pagar royalties para treinar modelos de IA em dados protegidos por direitos autorais.
Aqui está um resumo dos principais argumentos das principais empresas de IA em resposta às potenciais novas regras de direitos autorais dos EUA em torno da IA, com citações:
Meta argumenta impor o licenciamento agora causaria o caos e traria poucos benefícios aos detentores de direitos autorais.
Google reivindicações O treinamento em IA é análogo a atos não infratores, como ler um livro (Google, 2022).
Microsoft aviso adverte mudar a lei de direitos autorais pode prejudicar pequenos desenvolvedores de IA.
Apple quer código gerado por IA com direitos autorais controlado por desenvolvedores humanos.
No geral, a maioria das empresas opõe-se a novos mandatos de licenciamento e minimiza as preocupações sobre os sistemas de IA que reproduzem obras protegidas sem atribuição. No entanto, esta posição é controversa, dados os recentes processos e debates sobre direitos de autor sobre IA.
Caminhos para inovação responsável em IA generativa
À medida que estes poderosos modelos generativos continuam a avançar, eliminar os riscos de plágio é fundamental para a aceitação geral. É necessária uma abordagem multifacetada:
- Reformas políticas em torno da transparência dos dados de treinamento, licenciamento e consentimento do criador.
- Tecnologias mais fortes de detecção de plágio e governança interna por parte dos desenvolvedores.
- Maior conscientização dos usuários sobre os riscos e adesão aos princípios éticos da IA.
- Precedentes legais e jurisprudência claros em torno de questões de direitos autorais de IA.
Com as salvaguardas adequadas, a criação assistida por IA pode prosperar eticamente. Mas os riscos de plágio descontrolados podem minar significativamente a confiança pública. Abordar diretamente esse problema é fundamental para concretizar o imenso potencial criativo da IA generativa, respeitando os direitos do criador. Alcançar o equilíbrio certo exigirá confrontar ativamente o ponto cego do plágio inerente à própria natureza das redes neurais. Mas isso garantirá que esses modelos poderosos não minem a engenhosidade humana que visam aprimorar.







