Entrevistas
Denas Grybauskas, Chief Governance and Strategy Officer at Oxylabs – Entrevista em SĂ©rie

Denas Grybauskas é o Chief Governance and Strategy Officer da Oxylabs, uma líder global em coleta de inteligência web e soluções de proxy premium.
Fundada em 2015, Oxylabs fornece uma das maiores redes de proxy eticamente-fonte do mundo – abrangendo mais de 177 milhões de IPs em 195 países – juntamente com ferramentas avançadas como Web Unblocker, Web Scraper API e OxyCopilot, um assistente de raspagem de dados alimentado por IA que converte linguagem natural em consultas de dados estruturadas.
Você teve uma impressionante jornada jurídica e de governança no espaço de tecnologia jurídica da Lituânia. O que o motivou pessoalmente a enfrentar um dos desafios mais polêmicos da IA – ética e direitos autorais – em seu papel na Oxylabs?
A Oxylabs sempre foi a bandeira da inovação responsável na indústria. Fomos os primeiros a defender a fonte ética de proxy e os padrões da indústria de raspagem de dados. Agora, com a IA se movendo tão rapidamente, devemos garantir que a inovação seja equilibrada com a responsabilidade.
Vimos isso como um grande problema enfrentado pela indústria de IA e também vimos a solução. Ao fornecer esses conjuntos de dados, estamos permitindo que as empresas de IA e os criadores estejam na mesma página em relação ao desenvolvimento de IA justo, o que é benéfico para todos os envolvidos. Sabíamos o quão importante era manter os direitos dos criadores em primeiro plano, mas também fornecer conteúdo para o desenvolvimento de futuros sistemas de IA, então criamos esses conjuntos de dados como algo que pode atender às demandas do mercado de hoje.
O Reino Unido está no meio de uma batalha acalorada sobre direitos autorais, com vozes fortes em ambos os lados. Como você interpreta o estado atual do debate entre inovação de IA e direitos dos criadores?
Embora seja importante que o governo do Reino Unido priorize a inovação tecnológica produtiva, é vital que os criadores sejam protegidos e valorizados pela IA, e não roubados. O quadro jurídico atualmente em debate deve encontrar um ponto de equilíbrio entre fomentar a inovação e, ao mesmo tempo, proteger os criadores, e espero que nas próximas semanas eles encontrem uma maneira de encontrar um equilíbrio.
A Oxylabs acaba de lançar os primeiros conjuntos de dados éticos do YouTube, que exigem o consentimento do criador para o treinamento de IA. Como exatamente funciona o processo de consentimento – e quão escalável é para outras indústrias, como música ou publicação?
Todos os milhões de vídeos originais nos conjuntos de dados têm o consentimento explícito dos criadores para serem usados para o treinamento de IA, conectando criadores e inovadores eticamente. Todos os conjuntos de dados oferecidos pela Oxylabs incluem vídeos, transcrições e metadados ricos. Embora esses dados tenham muitos casos de uso potenciais, a Oxylabs os refinou e preparou especificamente para o treinamento de IA, que é o uso que os criadores de conteúdo concordaram explicitamente.
Muitos líderes de tecnologia argumentam que exigir consentimento explícito de todos os criadores pode “matar” a indústria de IA. Qual é sua resposta a essa afirmação, e como a abordagem da Oxylabs prova o contrário?
Exigir que, para cada uso de material para o treinamento de IA, haja um consentimento explícito prévio apresenta desafios operacionais significativos e viria a um custo significativo para a inovação de IA. Em vez de proteger os direitos dos criadores, poderia inadvertidamente incentivar as empresas a transferir as atividades de desenvolvimento para jurisdições com regulamentação menos rigorosa ou regimes de direitos autorais diferentes. No entanto, isso não significa que não haja um meio-termo em que o desenvolvimento de IA seja incentivado enquanto os direitos autorais são respeitados. Pelo contrário, o que precisamos são mecanismos viáveis que simplifiquem a relação entre as empresas de IA e os criadores.
Esses conjuntos de dados oferecem uma abordagem para avançar. O modelo de opt-out, pelo qual o conteúdo pode ser usado a menos que o proprietário de direitos autorais opte explicitamente por não usar, é outro. A terceira forma seria facilitar a negociação entre editores, criadores e empresas de IA por meio de soluções tecnológicas, como plataformas online.
Em última análise, qualquer solução deve operar dentro dos limites das leis de direitos autorais e proteção de dados aplicáveis. Na Oxylabs, acreditamos que a inovação de IA deve ser perseguida de forma responsável, e nosso objetivo é contribuir para quadros legais e práticos que respeitem os criadores enquanto permitem o progresso.
Quais foram os principais obstáculos que sua equipe teve que superar para tornar os conjuntos de dados baseados em consentimento viáveis?
O caminho para nós foi aberto pelo YouTube, permitindo que os criadores de conteúdo licenciem facilmente seu trabalho para o treinamento de IA. Depois disso, nosso trabalho foi principalmente técnico, envolvendo a coleta de dados, limpeza e estruturação para preparar os conjuntos de dados e construir toda a configuração técnica para que as empresas acessem os dados de que precisavam. Mas isso é algo que estamos fazendo há anos, de uma forma ou de outra. Claro, cada caso apresenta seu próprio conjunto de desafios, especialmente quando você lida com algo tão grande e complexo quanto dados multimodais. Mas tínhamos tanto o conhecimento quanto a capacidade técnica para fazer isso. Dado isso, assim que os autores do YouTube tiveram a chance de dar consentimento, o resto foi apenas uma questão de colocar nosso tempo e recursos nisso.
Além do conteúdo do YouTube, você vislumbra um futuro em que outros principais tipos de conteúdo – como música, escrita ou arte digital – também possam ser licenciados sistematicamente para uso como dados de treinamento?
Por um tempo, estamos apontando a necessidade de uma abordagem sistemática para o consentimento e a licença de conteúdo a fim de permitir a inovação de IA enquanto equilibra os direitos dos criadores. Somente quando houver uma maneira conveniente e cooperativa para ambas as partes alcançarem seus objetivos, haverá benefício mútuo.
Isso é apenas o começo. Acreditamos que fornecer conjuntos de dados como os nossos em uma variedade de indústrias pode fornecer uma solução que finalmente traga o debate sobre direitos autorais a um encerramento amigável.
A importância de ofertas como os conjuntos de dados éticos da Oxylabs varia dependendo de diferentes abordagens de governança de IA na UE, no Reino Unido e em outras jurisdições?
Por um lado, a disponibilidade de conjuntos de dados baseados em consentimento explícito nivela o campo para as empresas de IA com base em jurisdições onde os governos inclinam-se para uma regulamentação mais estrita. A principal preocupação dessas empresas é que, em vez de apoiar os criadores, regras rigorosas para obter consentimento darão uma vantagem injusta aos desenvolvedores de IA em outras jurisdições. O problema não é que essas empresas não se importam com o consentimento, mas sim que, sem uma maneira conveniente de obtê-lo, elas estão condenadas a ficar para trás.
Por outro lado, acreditamos que, se o consentimento e o acesso a dados licenciados para o treinamento de IA forem simplificados, não há razão para que essa abordagem não se torne a forma preferida globalmente. Nossos conjuntos de dados construídos com conteúdo do YouTube licenciado são um passo em direção a essa simplificação.
À medida que a desconfiança pública em relação a como a IA é treinada cresce, como você acha que a transparência e o consentimento podem se tornar vantagens competitivas para as empresas de tecnologia?
Embora a transparência seja frequentemente vista como um obstáculo à vantagem competitiva, é também nossa maior arma para lutar contra a desconfiança. Quanto mais transparência as empresas de IA podem fornecer, mais evidências há de treinamento de IA ético e benéfico, reconstruindo assim a confiança na indústria de IA. E, por sua vez, os criadores vendo que eles e a sociedade podem obter valor da inovação de IA terão mais razão para dar consentimento no futuro.
A Oxylabs é frequentemente associada à raspagem de dados e inteligência web. Como essa nova iniciativa ética se encaixa na visão mais ampla da empresa?
O lançamento de conjuntos de dados éticos do YouTube continua nossa missão na Oxylabs de estabelecer e promover práticas éticas da indústria. Como parte disso, co-fundamos a Iniciativa de Coleta de Dados da Web Ética (EWDCI) e introduzimos um quadro de nível transparente em primeiro lugar para a fonte de proxy. Também lançamos o Projeto 4β como parte de nossa missão de permitir que os pesquisadores e acadêmicos maximizem o impacto de suas pesquisas e melhorem a compreensão dos dados da web pública crítica.
Olhando para o futuro, você acha que os governos devem exigir consentimento-por-padrão para dados de treinamento, ou isso deve permanecer uma iniciativa voluntária da indústria?
Em uma economia de mercado livre, é geralmente melhor deixar o mercado se corrigir. Ao permitir que a inovação se desenvolva em resposta às necessidades do mercado, continuamos a reinventar e renovar nossa prosperidade. A legislação pesada nunca é uma boa escolha inicial e deve ser recorrida apenas quando todos os outros meios para garantir justiça, permitindo a inovação, foram esgotados.
Não parece que já alcançamos esse ponto no treinamento de IA. As opções de licenciamento do YouTube para criadores e nossos conjuntos de dados demonstram que esse ecossistema está ativamente buscando maneiras de se adaptar às novas realidades. Portanto, embora a regulamentação clara seja, é claro, necessária para garantir que todos atuem dentro de seus direitos, os governos podem querer pisar levemente. Em vez de exigir consentimento expresso em cada caso, eles podem querer examinar as maneiras pelas quais as indústrias podem desenvolver mecanismos para resolver as tensões atuais e tirar dicas disso ao legislar para incentivar a inovação em vez de impedi-la.
Que conselho você daria às startups e desenvolvedores de IA que desejam priorizar o uso ético de dados sem estagnar a inovação?
Uma maneira pelas quais as startups podem ajudar a facilitar o uso ético de dados é desenvolvendo soluções tecnológicas que simplifiquem o processo de obtenção de consentimento e derivação de valor para os criadores. À medida que surgem opções para adquirir dados de fonte transparente, as empresas de IA não precisam comprometer a velocidade; portanto, aconselho-as a manter os olhos abertos para essas ofertas.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Oxylabs.












