Entrevistas
Or Lenchner, CEO da Bright Data – Série de Entrevistas

Or Lenchner, CEO da Bright Data, lidera a plataforma de coleta de dados da web de mercado desde 2018, impulsionando sua expansão, inovação e crescimento para mais de USD 100 milhões em receita anual. Bright Data permite que corporações Fortune 500, empresas líderes, universidades renomadas e entidades do setor público acessem dados da web pública em tempo real e em larga escala. Lenchner é um forte defensor de manter os dados da web pública abertos e acessíveis, enfatizando seu papel crítico no impulsionamento da inovação.
O que inspirou sua jornada no mundo dos dados e da IA, e desde que se tornou CEO em 2018, como você moldou a missão e visão da Bright Data?
Eu sempre fui fascinado pelo poder dos dados, particularmente por como eles podem impulsionar decisões e alimentar a inovação. Quando usados corretamente, os dados também podem impulsionar a transparência nos negócios. Tornar-me CEO da Bright Data em 2018 me deu a oportunidade de ajudar a moldar como os pesquisadores de IA e as empresas abordam a coleta e utilização de dados da web pública.
Quais são os principais desafios que as equipes de IA enfrentam ao coletar dados da web pública em larga escala, e como a Bright Data aborda esses desafios?
A escalabilidade permanece como um dos principais desafios para as equipes de IA. Como os modelos de IA exigem grandes quantidades de dados, a coleta eficiente não é uma tarefa fácil. E como os modelos de IA são apenas tão bons quanto os dados nos quais são treinados, garantir que as equipes tenham acesso a dados frescos e de alta qualidade é um desafio constante. Isso é especialmente verdadeiro à medida que a web evolui em tempo real.
Outra grande preocupação é a conformidade. As leis e regulamentos de privacidade de dados continuam a evoluir, então as equipes de IA precisam estar sempre cientes dessas mudanças. Elas também precisam entender como lidar com sites que aplicam mecanismos anti-robô, o que pode complicar o processo de coleta de dados.
A plataforma que construímos na Bright Data cuida desses desafios. Nós oferecemos coleta de dados automatizada e escalável que entrega dados reais em tempo real. Nossas ferramentas impulsionadas por IA limpam e validam os dados para garantir a precisão. Nós temos medidas estritas em vigor para garantir a coleta e utilização legais e éticas de dados para conformidade. A ideia é empoderar as equipes de IA para se concentrar em construir grandes modelos, enquanto nós lidamos com as complexidades da coleta de dados.
Como os dados da web de alta qualidade contribuem para o desempenho do modelo de IA, e quais são as melhores práticas para garantir a precisão dos dados?
Dados de alta qualidade significam dados que são completos, livres de vieses e, mais importante, precisos. Se os dados são deficientes ou contaminados com inconsistências e erros, o modelo de IA resultante não atenderá às expectativas.
Para alcançar a precisão, é melhor obter dados de uma variedade de fontes públicas que tenham estabelecido confiabilidade. Usar apenas algumas fontes, ou pior, uma única fonte de dados, resulta em problemas como a incompletude. Ter múltiplas fontes fornece a capacidade de cruzar referências e construir um conjunto de dados mais equilibrado e representado. Além disso, as organizações devem considerar a validação e limpeza automatizada de dados para se livrar eficientemente de dados errôneos e inconsistentes.
Na Bright Data, consideramos todos esses fatores. Nós oferecemos às equipes de IA dados estruturados e em tempo real que foram validados para precisão. Dessa forma, elas podem treinar modelos com confiança.
Quais são as principais preocupações éticas na coleta de dados da web pública hoje?
A privacidade permanece como uma das principais preocupações na coleta de dados da web pública. As pessoas se preocupam com a exposição de seus dados a abusos e mau uso. Para garantir que os dados permaneçam privados, é vital enfatizar a transparência. As organizações que acumulam dados devem ser transparentes sobre os dados que coletam. É importante garantir ao público que seus dados são usados sob estritas diretrizes éticas.
Outra grande preocupação é a monopolização. Certas grandes empresas controlam uma grande quantidade de dados, o que cria um campo de jogo desigual, no qual apenas algumas têm acesso às informações necessárias para treinar modelos de IA e impulsionar a inovação. Isso não é como as coisas devem ser. Os dados da web pública devem permanecer acessíveis a empresas, pesquisadores e desenvolvedores. Dessa forma, o desenvolvimento de IA não é concentrado nas mãos de apenas alguns grandes jogadores.
A ética não é uma consideração secundária na Bright Data. Ela está incorporada em cada decisão que tomamos. Nós não apenas seguimos os padrões da indústria – nós os estabelecemos. Lideramos a indústria de coleta de dados na definição dos padrões éticos certos. Queremos garantir que os dados da web pública sejam acessados de forma responsável, transparente e em conformidade com as regulamentações globais.
Como a Bright Data garante a conformidade com as regulamentações globais de privacidade de dados, permitindo ainda a coleta de dados em larga escala?
Nossa organização está comprometida em cumprir os requisitos legais e regulamentares globais sobre a coleta e utilização de dados. Nós nos certificamos de que estamos em conformidade com os requisitos do GDPR, CPRA, CCPA e outras regulamentações relevantes. É importante notar que seguimos estritamente os protocolos de Conheça Seu Cliente (KYC) para garantir que apenas usuários legítimos acessem nossa plataforma. Nossas soluções de dados só podem ser acessadas por empresas e pesquisadores legítimos.
Nossa Política de Uso Aceitável também é clara ao definir quais dados podem e não podem ser coletados. Isso inclui o uso responsável. Nós temos uma equipe de conformidade dedicada responsável por monitorar continuamente as regulamentações para garantir que estamos atualizados com os requisitos legais e regulamentares mais recentes.
No entanto, ainda acreditamos que os dados da web pública devem permanecer acessíveis. Nosso objetivo é fornecer às equipes de IA os dados de que elas precisam, garantindo a conformidade com os padrões de privacidade e legais.
Como você equilibra o crescimento dos negócios com a manutenção de práticas éticas de coleta de dados?
Nós sempre pensamos em ética e crescimento como não mutuamente exclusivos. A confiança de nossos clientes e a relação que construímos com eles são preocupações fundamentais. Entendemos que podemos alcançar o sucesso a longo prazo apenas se coletarmos dados em termos transparentes e em conformidade com as leis aplicáveis.
Portanto, estabelecemos um protocolo de triagem rigoroso para nossos usuários. Isso é projetado para garantir que os dados que coletamos sejam usados eticamente. Nós alocamos tempo, esforço e recursos para a conformidade e segurança para proteger nossos clientes e o público em geral. Ao observar a coleta ética de dados, nós temos sucesso nos negócios enquanto contribuímos para o estabelecimento de um ecossistema de IA transparente e responsável.
Como a Bright Data fica à frente das mudanças regulamentares na privacidade de dados?
Nós entendemos que nossos processos e políticas de uso de dados inevitavelmente precisam mudar para refletir as mudanças nas leis e regulamentações relevantes. Como tal, consultamos regularmente especialistas jurídicos e nos comunicamos com órgãos regulamentadores. Nós também nos envolvemos em discussões com legisladores e outros envolvidos na elaboração de políticas, fornecendo contribuições para a criação de regulamentações de dados significativas. Nós visamos encontrar um equilíbrio entre inovação e privacidade de dados.
Nossa estrutura de coleta e uso de dados evolui à medida que novas leis são emitidas e regulamentações revisadas. Nós temos uma equipe de conformidade que atualiza proativamente nossas políticas de uso de dados para garantir que nossa plataforma esteja sempre em conformidade. Além disso, operamos iniciativas de educação do cliente para promover o uso ético de dados.
Quais são as tendências emergentes na coleta de dados de IA que as empresas devem estar cientes?
A coleta de dados em tempo real está se tornando uma necessidade para os modelos de IA atuais. É crucial que eles acessem os dados mais recentes ou frescos para entregar um alto nível de precisão e fornecer melhores experiências de usuário.
Outra tendência notável é a dependência de dados sintéticos usados para aumentação de dados, onde a IA gera dados que complementam conjuntos de dados coletados de cenários do mundo real.
Estou também vendo um forte interesse na busca por IA explicável. A maioria dos modelos de IA atuais sofre do efeito de caixa preta, ou falta de transparência em seus processos de tomada de decisão. As empresas estão buscando mudar esse paradigma criando modelos de IA que possam detalhar como chegaram aos resultados ou decisões que tomam.
Por fim, as empresas estão cientes das crescentes preocupações com a privacidade de dados. É por isso que as técnicas de IA destinadas a preservar a privacidade de dados, como o aprendizado federado, estão se tornando procuradas. As organizações querem maximizar o treinamento de modelos de IA sem comprometer a privacidade dos dados do usuário.
Nós nos certificamos de que estamos por dentro dessas tendências, para que possamos construir soluções que permitam que as equipes de IA mantenham uma vantagem competitiva.
Como você vê os agentes e a automação impulsionados por IA mudando o cenário de coleta de dados?
Atualmente, os modelos de IA usam conjuntos de dados estruturados que são coletados principalmente manualmente. Esses conjuntos de dados também passam por pré-processamento, limpeza e outros procedimentos que geralmente envolvem intervenção humana. Isso está prestes a mudar no futuro próximo com o surgimento de agentes de IA para a coleta e processamento autônoma de dados para o treinamento de IA. Eles tornam possível aprender com dados da web em tempo real em uma escala sem precedentes.
Nós criamos infraestrutura que suporta o deploy e a evolução de agentes de IA, permitindo o acesso suave a dados de alta qualidade e em tempo real na web. Essa tecnologia permite que sistemas de IA sofisticados interfiram continuamente com dados da web dinâmicos, aprendam com eles e cresçam maiores e melhores.
Os agentes de IA podem transformar indústrias, permitindo que os sistemas de IA acessem e aprendam com conjuntos de dados constantemente mudando na web, em vez de depender de dados estáticos e processados manualmente. Isso pode levar a chatbots de IA de bancos ou segurança cibernética, por exemplo, que são capazes de tomar decisões que refletem as realidades mais recentes. Isso resulta em avanços significativos em eficiência e mais áreas para automação.
Na Bright Data, não estamos apenas habilitando essa transformação no cenário de coleta de dados. Acreditamos que estamos à frente, introduzindo uma tecnologia que anuncia a próxima geração de inteligência artificial. Estamos ansiosos para ajudar as empresas e as equipes de IA a aproveitar todo o potencial dos agentes de IA para suas operações.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Bright Data.












