Interviews
Or Lenchner, PDG de Bright Data – Série d'entretiens

Ou Lenchner, PDG de Bright Data, dirige la plateforme de collecte de données Web leader du marché depuis 2018, stimulant son expansion, son innovation et sa croissance à plus de 100 millions USD de chiffre d'affaires annuel. Données lumineuses permet aux entreprises du Fortune 500, aux grandes entreprises, aux universités renommées et aux organismes du secteur public d'accéder aux données web publiques en temps réel et à grande échelle. Lenchner est un fervent défenseur de l'ouverture et de l'accessibilité des données web publiques, soulignant leur rôle essentiel dans l'innovation.
Qu'est-ce qui a inspiré votre parcours dans le monde des données et de l'IA, et depuis que vous êtes devenu PDG en 2018, comment avez-vous façonné la mission et la vision de Bright Data ?
J'ai toujours été fasciné par le pouvoir des données, notamment par leur capacité à orienter les décisions et à stimuler l'innovation. Bien utilisées, les données peuvent également favoriser la transparence en entreprise. Devenir PDG de Bright Data en 2018 m'a permis de contribuer à façonner la manière dont les chercheurs et les entreprises en IA collectent et exploitent les données web publiques.
Quels sont les principaux défis auxquels sont confrontées les équipes d’IA pour s’approvisionner en données Web publiques à grande échelle, et comment Bright Data les relève-t-elle ?
L'évolutivité reste l'un des principaux défis des équipes d'IA. Les modèles d'IA nécessitant d'énormes quantités de données, une collecte efficace n'est pas une mince affaire. Et comme la qualité des modèles d'IA dépend des données sur lesquelles ils sont entraînés, garantir aux équipes l'accès à des données récentes et de haute qualité est un défi permanent. C'est d'autant plus vrai à l'heure où le web évolue en temps réel.
La conformité est une autre préoccupation majeure. Les lois et exigences en matière de confidentialité des données évoluent constamment ; les équipes d'IA doivent donc être constamment informées de ces changements. Elles doivent également comprendre comment gérer les sites web qui appliquent des mécanismes anti-robots, ce qui peut compliquer le processus de collecte de données.
La plateforme développée par Bright Data répond à ces défis. Nous proposons une collecte de données automatisée et évolutive qui fournit des données structurées en temps réel. Nos outils d'IA nettoient et valident les données pour garantir leur exactitude. Nous avons mis en place des mesures strictes pour garantir la conformité légale et éthique de la collecte de données. L'objectif est de permettre aux équipes d'IA de se concentrer sur la création de modèles performants, tandis que nous gérons la complexité de l'approvisionnement en données.
Comment les données Web de haute qualité contribuent-elles aux performances du modèle d’IA et quelles sont les meilleures pratiques pour garantir l’exactitude des données ?
Des données de haute qualité sont des données complètes, exemptes de biais et, surtout, exactes. Si les données sont incomplètes ou entachées d'incohérences et d'erreurs, le modèle d'IA obtenu ne fonctionnera pas comme prévu.
Pour garantir l'exactitude des données, il est préférable de s'approvisionner auprès de diverses sources publiques dont la fiabilité est établie. L'utilisation de quelques sources, voire d'une seule, peut engendrer des problèmes tels que l'incomplétude. La multiplication des sources permet de croiser les données et de constituer un ensemble de données plus équilibré et mieux représenté. De plus, les organisations devraient envisager l'automatisation de la validation et du nettoyage des données afin d'éliminer efficacement les données erronées et incohérentes.
Chez Bright Data, nous prenons en compte tous ces facteurs. Nous fournissons aux équipes d'IA des données structurées et en temps réel dont l'exactitude a été validée. Elles peuvent ainsi entraîner leurs modèles en toute confiance.
Quelles sont les plus grandes préoccupations éthiques liées à la collecte de données publiques sur le Web aujourd’hui ?
La confidentialité reste l'une des principales préoccupations en matière de collecte de données publiques sur le web. Les citoyens craignent que leurs données soient exposées à des abus et à des utilisations abusives. Pour garantir la confidentialité des données, il est essentiel de privilégier la transparence. Les organisations qui collectent des données doivent être transparentes quant aux données qu'elles collectent. Il est important de garantir au public que leurs données sont utilisées dans le respect de règles éthiques strictes.
Une autre préoccupation majeure est la monopolisation. Certaines grandes entreprises contrôlent d'énormes quantités de données, ce qui crée des conditions de concurrence inégales : seuls quelques privilégiés ont accès aux informations nécessaires à l'entraînement des modèles d'IA et à l'innovation. Ce n'est pas normal. Les données publiques du web doivent rester accessibles aux entreprises, aux chercheurs et aux développeurs. Ainsi, le développement de l'IA n'est pas concentré entre les mains de quelques grands acteurs.
Chez Bright Data, l'éthique n'est pas une considération secondaire. Elle est intégrée à chacune de nos décisions. Nous ne nous contentons pas de suivre les normes du secteur, nous les définissons. Nous sommes leaders dans le secteur de la collecte de données en définissant des normes éthiques appropriées. Nous voulons garantir un accès aux données web publiques de manière responsable, transparente et en totale conformité avec les réglementations mondiales.
Comment Bright Data garantit-il la conformité aux réglementations mondiales en matière de confidentialité des données tout en permettant la collecte de données à grande échelle ?
Notre organisation s'engage à respecter les exigences légales et réglementaires mondiales en matière de collecte et d'utilisation des données. Nous veillons à respecter les exigences du RGPD, du CPRA, du CCPA et des autres réglementations applicables. Plus important encore, nous appliquons scrupuleusement les protocoles de connaissance du client (KYC) afin de garantir que seuls les utilisateurs légitimes accèdent à notre plateforme. Nos solutions de données sont réservées aux entreprises et aux chercheurs légitimes.
Notre Politique d'utilisation acceptable définit clairement les données pouvant être collectées et celles qui ne le peuvent pas. Cela inclut une utilisation responsable. Notre équipe dédiée à la conformité assure une veille réglementaire continue afin de garantir notre conformité aux dernières exigences légales et réglementaires.
Quoi qu'il en soit, nous pensons que les données web publiques doivent rester accessibles. Notre objectif est de fournir aux équipes d'IA les données dont elles ont besoin, tout en garantissant le respect des normes de confidentialité et des lois.
Comment concilier la croissance de l’entreprise avec le maintien de pratiques éthiques de collecte de données ?
Nous considérons toujours l'éthique et la croissance comme des notions indissociables. La confiance de nos clients et la relation que nous construisons avec eux sont primordiales. Nous comprenons que notre réussite à long terme ne peut être assurée que si nous collectons des données dans des conditions transparentes et conformes aux lois en vigueur.
Nous avons donc mis en place un protocole de contrôle strict pour nos utilisateurs. Ce protocole vise à garantir que les données que nous collectons sont utilisées de manière éthique. Nous consacrons du temps, des efforts et des ressources à la conformité et à la sécurité afin de protéger nos clients et le public en général. En respectant une collecte de données éthique, nous réussissons sur le plan commercial tout en contribuant à la mise en place d'un écosystème d'IA transparent et responsable.
Comment Bright Data reste-t-il en avance sur les changements réglementaires en matière de confidentialité des données ?
Nous comprenons que nos processus et politiques d'utilisation des données doivent inévitablement évoluer pour refléter l'évolution des lois et réglementations en vigueur. C'est pourquoi nous consultons régulièrement des experts juridiques et communiquons avec les organismes de réglementation. Nous discutons également avec les législateurs et autres acteurs impliqués dans l'élaboration des politiques, contribuant ainsi à l'élaboration de réglementations pertinentes en matière de données. Nous cherchons à trouver un équilibre entre innovation et confidentialité des données.
Notre cadre de collecte et d'utilisation des données évolue au gré des lois et des réglementations. Notre équipe de conformité met à jour proactivement nos politiques d'utilisation des données afin de garantir la conformité de notre plateforme. De plus, nous menons des actions de sensibilisation auprès de nos clients pour promouvoir une utilisation éthique des données.
Quelles sont les tendances émergentes en matière de collecte de données par l’IA dont les entreprises doivent être conscientes ?
La collecte de données en temps réel devient indispensable pour les modèles d'IA actuels. Il est crucial pour eux d'accéder aux données les plus récentes afin d'offrir un haut niveau de précision et une meilleure expérience utilisateur.
Une autre tendance notable est le recours aux données synthétiques utilisées pour l’augmentation des données, dans lesquelles l’IA génère des données qui complètent les ensembles de données collectés à partir de scénarios du monde réel.
Je constate également un vif intérêt pour l'IA explicable. La plupart des modèles d'IA actuels souffrent de l'effet boîte noire, c'est-à -dire d'un manque de transparence dans leurs processus décisionnels. Les entreprises cherchent à changer ce paradigme en créant des modèles d'IA capables de détailler la manière dont elles parviennent aux résultats ou aux décisions qu'elles prennent.
Enfin, les entreprises sont conscientes des préoccupations croissantes en matière de confidentialité des données. C'est pourquoi les techniques d'IA visant à préserver la confidentialité des données, comme l'apprentissage fédéré, sont de plus en plus demandées. Les organisations souhaitent optimiser l'entraînement des modèles d'IA sans compromettre la confidentialité des données utilisateur.
Nous nous assurons d’être au courant de ces tendances afin de pouvoir créer des solutions qui permettent aux équipes d’IA de conserver un avantage concurrentiel.
Comment voyez-vous les agents basés sur l’IA et l’automatisation changer le paysage de la collecte de données ?
Actuellement, les modèles d'IA utilisent des ensembles de données structurés, principalement collectés manuellement. Ces ensembles de données subissent également des opérations de prétraitement, de nettoyage et autres, impliquant généralement une intervention humaine. Cette situation devrait changer prochainement avec l'essor des agents d'IA capables de collecter et de traiter de manière autonome les données nécessaires à leur apprentissage. Ils permettent d'apprendre automatiquement à partir de données web en temps réel, à une échelle sans précédent.
Nous avons créé une infrastructure qui prend en charge le déploiement et l'évolution des agents d'IA, permettant un accès fluide à des données web de haute qualité et en temps réel. Cette technologie permet aux systèmes d'IA sophistiqués d'interagir en continu avec des données web dynamiques, d'en tirer des enseignements et de progresser.
Les agents d'IA peuvent transformer les secteurs d'activité en permettant aux systèmes d'IA d'accéder à des ensembles de données web en constante évolution et d'en tirer des enseignements, au lieu de s'appuyer sur des données statiques et traitées manuellement. Cela peut donner naissance à des chatbots IA, par exemple dans le secteur bancaire ou la cybersécurité, capables de prendre des décisions adaptées aux réalités les plus récentes. Cela se traduit par des gains d'efficacité considérables et de nouveaux domaines d'automatisation.
Chez Bright Data, nous ne nous contentons pas de faciliter cette transformation du paysage de la collecte de données. Nous sommes convaincus d'être à l'avant-garde en introduisant une technologie qui ouvre la voie à la prochaine génération d'intelligence artificielle. Nous sommes ravis d'accompagner les entreprises et les équipes IA dans l'exploitation du plein potentiel des agents IA pour leurs opérations.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Données lumineuses.












