Connect with us

Inteligência artificial

Monetizando Pesquisa para Treinamento de IA: Os Riscos e as Melhores Práticas

mm

À medida que a demanda por IA geradora cresce, também cresce a fome por dados de alta qualidade para treinar esses sistemas. Editores acadêmicos começaram a monetizar seu conteúdo de pesquisa para fornecer dados de treinamento para grandes modelos de linguagem (LLMs). Embora esse desenvolvimento esteja criando uma nova fonte de receita para os editores e empoderando a IA geradora para descobertas científicas, ele levanta questões críticas sobre a integridade e confiabilidade da pesquisa utilizada. Isso levanta uma pergunta crucial: Os conjuntos de dados que estão sendo vendidos são confiáveis, e quais são as implicações dessa prática para a comunidade científica e os modelos de IA geradora?

O Surgimento de Acordos de Pesquisa Monetizados

Grandes editores acadêmicos, incluindo Wiley, Taylor & Francis, e outros, relataram receitas substanciais da licença de seu conteúdo para empresas de tecnologia que desenvolvem modelos de IA geradora. Por exemplo, a Wiley revelou mais de $40 milhões em ganhos com esses acordos apenas este ano. Esses acordos permitem que as empresas de IA acessem conjuntos de dados científicos diversificados e expansivos, melhorando presumivelmente a qualidade de suas ferramentas de IA.

A proposta dos editores é direta: a licença garante melhores modelos de IA, beneficiando a sociedade e recompensando os autores com royalties. Esse modelo de negócios beneficia tanto as empresas de tecnologia quanto os editores. No entanto, a tendência crescente de monetizar o conhecimento científico tem riscos, principalmente quando pesquisas questionáveis infiltram-se nesses conjuntos de dados de treinamento de IA.

A Sombra da Pesquisa Falsificada

A comunidade acadêmica não é estranha a questões de pesquisa fraudulenta. Estudos sugerem que muitas descobertas publicadas são defeituosas, tendenciosas ou simplesmente não confiáveis. Uma pesquisa de 2020 encontrou que quase metade dos pesquisadores relatou problemas como relatórios seletivos de dados ou estudos de campo mal projetados. Em 2023, mais de 10.000 artigos foram retratados devido a resultados falsificados ou não confiáveis, um número que continua a crescer anualmente. Especialistas acreditam que essa cifra representa a ponta do iceberg, com inúmeros estudos duvidosos circulando em bases de dados científicas.

A crise tem sido impulsionada principalmente por “moinhos de papel“, organizações sombrias que produzem estudos fabricados, muitas vezes em resposta a pressões acadêmicas em regiões como China, Índia e Europa Oriental. Estima-se que cerca de 2% das submissões de periódicos em todo o mundo venham de moinhos de papel. Esses artigos falsos podem se parecer com pesquisas legítimas, mas estão repletos de dados fictícios e conclusões infundadas. Disturbingly, esses artigos passam pela revisão por pares e acabam em periódicos respeitados, comprometendo a confiabilidade das percepções científicas. Por exemplo, durante a pandemia de COVID-19, estudos falhos sobre ivermectina falsamente sugeriram sua eficácia como tratamento, semear confusão e atrasar respostas de saúde pública eficazes. Esse exemplo destaca o potencial de danos da disseminação de pesquisas não confiáveis, onde resultados defeituosos podem ter um impacto significativo.

Consequências para o Treinamento de IA e a Confiança

As implicações são profundas quando os LLMs são treinados em bases de dados que contêm pesquisas fraudulentas ou de baixa qualidade. Os modelos de IA usam padrões e relações dentro de seus dados de treinamento para gerar saídas. Se os dados de entrada forem corrompidos, as saídas podem perpetuar imprecisões ou até mesmo amplificá-las. Esse risco é particularmente alto em campos como a medicina, onde insights gerados por IA incorretos podem ter consequências de vida ou morte.
Além disso, a questão ameaça a confiança do público na academia e na IA. À medida que os editores continuam a fazer acordos, eles devem abordar as preocupações sobre a qualidade dos dados que estão sendo vendidos. A falha em fazê-lo pode prejudicar a reputação da comunidade científica e minar os benefícios potenciais da IA.

Garantindo Dados Confiáveis para IA

Reduzir os riscos de pesquisas falhas que interrompem o treinamento de IA requer um esforço conjunto de editores, empresas de IA, desenvolvedores, pesquisadores e a comunidade em geral. Os editores devem melhorar seu processo de revisão por pares para capturar estudos não confiáveis antes que eles entrem nos conjuntos de dados de treinamento. Oferecer recompensas melhores para revisores e estabelecer padrões mais altos pode ajudar. Um processo de revisão aberto é fundamental aqui. Ele traz mais transparência e responsabilidade, ajudando a construir confiança na pesquisa.
As empresas de IA devem ser mais cuidadosas sobre com quem elas trabalham ao buscar pesquisa para o treinamento de IA. Escolher editores e periódicos com uma reputação sólida de pesquisa de alta qualidade e bem revisada é fundamental. Nesse contexto, é importante olhar de perto o histórico de um editor — como frequentemente eles retiram artigos ou como abertos são sobre seu processo de revisão. Ser seletivo melhora a confiabilidade dos dados e constrói confiança em toda a comunidade de IA e pesquisa.

Os desenvolvedores de IA precisam assumir a responsabilidade pelos dados que usam. Isso significa trabalhar com especialistas, verificar cuidadosamente a pesquisa e comparar resultados de vários estudos. As próprias ferramentas de IA também podem ser projetadas para identificar dados suspeitos e reduzir os riscos de pesquisas questionáveis se espalharem ainda mais.

A transparência também é um fator essencial. Os editores e as empresas de IA devem compartilhar abertamente detalhes sobre como a pesquisa é usada e para onde os royalties vão. Ferramentas como o Generative AI Licensing Agreement Tracker mostram promessa, mas precisam de adoção mais ampla. Os pesquisadores também devem ter uma palavra a dizer sobre como seu trabalho é usado. Políticas de opt-in, como as da Cambridge University Press, oferecem aos autores controle sobre suas contribuições. Isso constrói confiança, garante equidade e faz com que os autores participem ativamente desse processo.

Além disso, o acesso aberto a pesquisas de alta qualidade deve ser incentivado para garantir inclusividade e equidade no desenvolvimento de IA. Governos, organizações sem fins lucrativos e atores da indústria podem financiar iniciativas de acesso aberto, reduzindo a dependência de editores comerciais para conjuntos de dados de treinamento críticos. Além disso, a indústria de IA precisa de regras claras para a obtenção de dados de forma ética. Ao se concentrar em pesquisas confiáveis e bem revisadas, podemos construir ferramentas de IA melhores, proteger a integridade científica e manter a confiança do público em ciência e tecnologia.

O Resumo

Monetizar a pesquisa para o treinamento de IA apresenta tanto oportunidades quanto desafios. Embora a licença de conteúdo acadêmico permita o desenvolvimento de modelos de IA mais poderosos, ela também levanta preocupações sobre a integridade e confiabilidade dos dados utilizados. A pesquisa falha, incluindo a proveniente de “moinhos de papel”, pode corromper os conjuntos de dados de treinamento de IA, levando a imprecisões que podem minar a confiança do público e os benefícios potenciais da IA. Para garantir que os modelos de IA sejam construídos com dados confiáveis, os editores, as empresas de IA e os desenvolvedores devem trabalhar juntos para melhorar os processos de revisão por pares, aumentar a transparência e priorizar pesquisas de alta qualidade e bem revisadas. Ao fazer isso, podemos salvaguardar o futuro da IA e manter a integridade da comunidade científica.

O Dr. Tehseen Zia é um Professor Associado com Estabilidade no COMSATS University Islamabad, com um PhD em IA pela Vienna University of Technology, Áustria. Especializando-se em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em jornais científicos renomados. O Dr. Tehseen também liderou vários projetos industriais como Investigador Principal e atuou como Consultor de IA.