Entre em contato

Monetização de pesquisa para treinamento em IA: os riscos e as melhores práticas

Inteligência artificial

Monetização de pesquisa para treinamento em IA: os riscos e as melhores práticas

mm

À medida que a demanda por IA generativa cresce, também cresce a fome por dados de alta qualidade para treinar esses sistemas. Editoras acadêmicas começaram a monetizar seu conteúdo de pesquisa para fornecer dados de treinamento para modelos de linguagem grandes (LLMs). Embora esse desenvolvimento esteja criando um novo fluxo de receita para editoras e capacitando a IA generativa para descobertas científicas, ele levanta questões críticas sobre a integridade e confiabilidade da pesquisa usada. Isso levanta uma questão crucial: os conjuntos de dados que estão sendo vendidos são confiáveis ​​e quais implicações essa prática tem para a comunidade científica e os modelos de IA generativa?

A ascensão dos acordos de pesquisa monetizados

As principais editoras acadêmicas, incluindo Wiley, Taylor & Francis e outras, têm relatado receitas substanciais com o licenciamento de seu conteúdo para empresas de tecnologia que desenvolvem modelos de IA generativos. Por exemplo, a Wiley revelou mais de US$ 40 milhões em lucros com esses acordos somente neste ano. Esses acordos permitem que empresas de IA acessem conjuntos de dados científicos diversos e expansivos, presumivelmente melhorando a qualidade de suas ferramentas de IA.

O argumento das editoras é direto: o licenciamento garante melhores modelos de IA, beneficiando a sociedade e recompensando os autores com royalties. Esse modelo de negócio beneficia tanto as empresas de tecnologia quanto as editoras. No entanto, a tendência crescente de monetizar o conhecimento científico tem riscos, principalmente quando pesquisas questionáveis ​​se infiltram nesses conjuntos de dados de treinamento de IA.

A Sombra da Pesquisa Falsa

A comunidade acadêmica não é estranha a questões de pesquisa fraudulenta. Estudos sugerem que muitas descobertas publicadas são falhas, tendenciosas ou simplesmente não confiáveis. Uma pesquisa de 2020 descobriu que quase metade dos pesquisadores relataram problemas como relatórios de dados seletivos ou estudos de campo mal projetados. Em 2023, mais de Papéis 10,000 foram retratados devido a resultados falsificados ou não confiáveis, um número que continua a subir anualmente. Especialistas acreditam que esse número representa a ponta de um iceberg, com inúmeros estudos duvidosos circulando em bancos de dados científicos.

A crise foi impulsionada principalmente por “fábricas de papel,” organizações ocultas que produzem estudos fabricados, muitas vezes em resposta a pressões acadêmicas em regiões como China, Índia e Europa Oriental. Estima-se que em torno de 2% das submissões de periódicos globalmente vêm de fábricas de papel. Esses artigos falsos podem se assemelhar a pesquisas legítimas, mas estão cheios de dados fictícios e conclusões infundadas. Perturbadoramente, esses artigos escapam da revisão por pares e acabam em periódicos respeitados, comprometendo a confiabilidade dos insights científicos. Por exemplo, durante a pandemia de COVID-19, estudos falhos sobre ivermectina sugeriu falsamente sua eficácia como tratamento, semeando confusão e atrasando respostas efetivas de saúde pública. Este exemplo destaca o dano potencial de disseminar pesquisas não confiáveis, onde resultados falhos podem ter um impacto significativo.

Consequências para o treinamento e a confiança da IA

As implicações são profundas quando os LLMs treinam em bancos de dados que contêm pesquisas fraudulentas ou de baixa qualidade. Os modelos de IA usam padrões e relacionamentos dentro de seus dados de treinamento para gerar saídas. Se os dados de entrada forem corrompidos, as saídas podem perpetuar imprecisões ou até mesmo amplificá-las. Esse risco é particularmente alto em áreas como a medicina, onde insights incorretos gerados por IA podem ter consequências fatais.
Além disso, a questão ameaça a confiança do público na academia e na IA. À medida que as editoras continuam a firmar acordos, elas precisam abordar as preocupações com a qualidade dos dados vendidos. Não fazê-lo pode prejudicar a reputação da comunidade científica e minar os potenciais benefícios sociais da IA.

Garantindo dados confiáveis ​​para IA

Reduzir os riscos de pesquisas falhas que interrompem o treinamento de IA requer um esforço conjunto de editores, empresas de IA, desenvolvedores, pesquisadores e a comunidade em geral. Os editores devem melhorar seu processo de revisão por pares para capturar estudos não confiáveis ​​antes que eles entrem em conjuntos de dados de treinamento. Oferecer melhores recompensas para revisores e definir padrões mais altos pode ajudar. Um processo de revisão aberto é essencial aqui. Ele traz mais transparência e responsabilidade, ajudando a construir confiança na pesquisa.
As empresas de IA devem ser mais cuidadosas sobre com quem trabalham ao buscar pesquisas para treinamento em IA. Escolher editoras e periódicos com uma forte reputação de pesquisa de alta qualidade e bem revisada é fundamental. Nesse contexto, vale a pena olhar atentamente para o histórico de uma editora — como a frequência com que eles retratam artigos ou o quão abertos eles são sobre seu processo de revisão. Ser seletivo melhora a confiabilidade dos dados e cria confiança nas comunidades de IA e pesquisa.

Os desenvolvedores de IA precisam assumir a responsabilidade pelos dados que usam. Isso significa trabalhar com especialistas, verificar cuidadosamente as pesquisas e comparar os resultados de vários estudos. As próprias ferramentas de IA também podem ser projetadas para identificar dados suspeitos e reduzir os riscos de pesquisas questionáveis ​​se espalharem ainda mais.

A transparência também é um fator essencial. Editores e empresas de IA devem compartilhar abertamente detalhes sobre como a pesquisa é usada e para onde vão os royalties. Ferramentas como o Rastreador de acordo de licenciamento de IA generativa mostram promessas, mas precisam de adoção mais ampla. Os pesquisadores também devem ter voz ativa em como seu trabalho é usado. Políticas de opt-in, como os de Cambridge University Press, oferecem aos autores controle sobre suas contribuições. Isso cria confiança, garante justiça e faz com que os autores participem ativamente desse processo.

Além disso, o acesso aberto à investigação de elevada qualidade deve ser incentivado para garantir inclusão e justiça no desenvolvimento de IA. Governos, organizações sem fins lucrativos e participantes da indústria podem financiar iniciativas de acesso aberto, reduzindo a dependência de editoras comerciais para conjuntos de dados de treinamento críticos. Além disso, a indústria de IA precisa de regras claras para obter dados de forma ética. Ao focar em pesquisas confiáveis ​​e bem revisadas, podemos construir melhores ferramentas de IA, proteger a integridade científica e manter a confiança do público na ciência e na tecnologia.

Concluindo!

Monetizar pesquisas para treinamento em IA apresenta oportunidades e desafios. Embora o licenciamento de conteúdo acadêmico permita o desenvolvimento de modelos de IA mais poderosos, ele também levanta preocupações sobre a integridade e confiabilidade dos dados usados. Pesquisas falhas, incluindo aquelas de "fábricas de papel", podem corromper conjuntos de dados de treinamento de IA, levando a imprecisões que podem minar a confiança pública e os benefícios potenciais da IA. Para garantir que os modelos de IA sejam construídos em dados confiáveis, editores, empresas de IA e desenvolvedores devem trabalhar juntos para melhorar os processos de revisão por pares, aumentar a transparência e priorizar pesquisas de alta qualidade e bem examinadas. Ao fazer isso, podemos proteger o futuro da IA ​​e manter a integridade da comunidade científica.

mm

Tehseen Zia é professor associado titular na COMSATS University Islamabad, com doutorado em IA pela Universidade de Tecnologia de Viena, Áustria. Especializado em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em revistas científicas de renome. Tehseen também liderou vários projetos industriais como investigador principal e atuou como consultor de IA.