Interviste
Or Lenchner, CEO di Bright Data – Serie di Interviste

Or Lenchner, CEO di Bright Data, ha guidato la piattaforma di raccolta di dati web leader del mercato dal 2018, guidandone l’espansione, l’innovazione e la crescita a oltre 100 milioni di dollari di entrate annuali. Bright Data consente alle società Fortune 500, alle principali aziende, alle università più note e alle entità del settore pubblico di accedere ai dati web pubblici in tempo reale e su larga scala. Lenchner è un forte sostenitore della conservazione dei dati web pubblici aperti e accessibili, sottolineando il loro ruolo critico nel guidare l’innovazione.
Cosa ha ispirato il tuo percorso nel mondo dei dati e dell’AI, e da quando sei diventato CEO nel 2018, come hai plasmato la missione e la visione di Bright Data?
Sono sempre stato affascinato dal potere dei dati, in particolare da come possono guidare le decisioni e alimentare l’innovazione. Quando utilizzati correttamente, i dati possono anche guidare la trasparenza aziendale. Diventare CEO di Bright Data nel 2018 mi ha dato l’opportunità di aiutare a plasmare come i ricercatori di AI e le aziende vanno a procurarsi e utilizzare i dati web pubblici.
Quali sono le principali sfide che le squadre di AI affrontano nella raccolta di grandi quantità di dati web pubblici, e come Bright Data affronta queste sfide?
La scalabilità rimane una delle principali sfide per le squadre di AI. Poiché i modelli di AI richiedono enormi quantità di dati, la raccolta efficiente non è un compito facile. E poiché i modelli di AI sono solo così buoni come i dati su cui sono stati addestrati, assicurarsi che le squadre abbiano accesso a dati freschi e di alta qualità è una sfida costante. Ciò è particolarmente vero poiché il web evolve in tempo reale.
Un’altra preoccupazione importante è la conformità. Le leggi e i requisiti sulla privacy dei dati continuano a evolversi, quindi le squadre di AI devono essere sempre consapevoli di questi cambiamenti. Devono anche capire come gestire i siti web che applicano meccanismi anti-bot, che possono complicare il processo di raccolta dei dati.
La piattaforma che abbiamo costruito in Bright Data affronta queste sfide. Forniamo una raccolta di dati automatizzata e scalabile che fornisce dati in tempo reale strutturati. I nostri strumenti basati su AI puliscono e convalidano i dati per garantire l’accuratezza. Abbiamo misure severe in atto per garantire la raccolta di dati legale ed etica per la conformità. L’idea è quella di consentire alle squadre di AI di concentrarsi sulla costruzione di grandi modelli, mentre noi gestiamo le complessità della raccolta dei dati.
Come i dati web di alta qualità contribuiscono alle prestazioni dei modelli di AI, e quali sono le migliori pratiche per garantire l’accuratezza dei dati?
I dati di alta qualità significano dati completi, liberi da pregiudizi e, soprattutto, accurati. Se i dati sono carenti o inficiati da incongruenze e errori, il modello di AI risultante non si comporterà secondo le aspettative.
Per raggiungere l’accuratezza, è meglio procurarsi dati da una varietà di fonti pubbliche che abbiano stabilito l’affidabilità. Utilizzare solo alcune, o peggio, una singola fonte di dati, provoca problemi come l’incompletezza. Avere molte fonti fornisce la capacità di verificare incrociati i dati e costruire un set di dati più equilibrato e rappresentativo. Inoltre, le organizzazioni dovrebbero considerare la convalida e la pulizia dei dati automatizzate, per eliminare efficientemente i dati errati e inconsistenti.
In Bright Data, consideriamo tutti questi fattori. Forniamo alle squadre di AI dati strutturati e in tempo reale che sono stati convalidati per l’accuratezza. Ciò consente loro di addestrare i modelli con fiducia.
Quali sono le principali preoccupazioni etiche nella raccolta di dati web pubblici oggi?
La privacy rimane una delle principali preoccupazioni nella raccolta di dati web pubblici. Le persone si preoccupano che i loro dati vengano esposti ad abusi e utilizzi impropri. Per garantire che i dati rimangano privati, è fondamentale sottolineare la trasparenza. Le organizzazioni che accumulano dati devono essere trasparenti riguardo ai dati che raccolgono. È importante assicurare al pubblico che i loro dati vengono utilizzati secondo severe linee guida etiche.
Un’altra preoccupazione importante è la monopolizzazione. Alcune grandi aziende controllano una vasta quantità di dati, creando un campo di gioco ineguale in cui solo pochi hanno accesso alle informazioni necessarie per addestrare i modelli di AI e guidare l’innovazione. Non è così che dovrebbero essere le cose. I dati web pubblici dovrebbero rimanere accessibili alle aziende, ai ricercatori e agli sviluppatori. Ciò consente lo sviluppo di AI non concentrato nelle mani di pochi grandi giocatori.
Le questioni etiche non sono un pensiero successivo in Bright Data. Sono incorporate in ogni decisione che prendiamo. Non seguiamo solo gli standard del settore – li stabiliamo. Guidiamo l’industria della raccolta di dati nel definire gli standard etici corretti. Vogliamo assicurarci che i dati web pubblici vengano accessibili in modo responsabile, trasparente e in piena conformità con le norme globali.
Come Bright Data garantisce la conformità con le norme globali sulla privacy dei dati, consentendo allo stesso tempo la raccolta di grandi quantità di dati?
La nostra organizzazione è impegnata a rispettare le norme e i regolamenti globali sulla raccolta e sull’utilizzo dei dati. Ci assicuriamo di essere conformi ai requisiti del GDPR, del CPRA, del CCPA e di altre norme rilevanti. Inoltre, seguiamo rigorosamente i protocolli Know Your Customer (KYC) per garantire che solo utenti legittimi accedano alla nostra piattaforma. Le nostre soluzioni di dati possono essere accessibili solo da aziende e ricercatori legittimi.
La nostra Politica di utilizzo accettabile è chiara nel definire quali dati possono e non possono essere raccolti. Ciò include l’uso responsabile. Abbiamo un team di conformità dedicato al monitoraggio continuo delle norme per assicurarci di essere aggiornati con gli ultimi requisiti legali e normativi.
Tuttavia, crediamo ancora che i dati web pubblici dovrebbero rimanere accessibili. Il nostro obiettivo è fornire alle squadre di AI i dati di cui hanno bisogno, garantendo al contempo la conformità con le norme sulla privacy e la legalità.
Come bilanci la crescita aziendale con il mantenimento di pratiche di raccolta di dati etiche?
Non consideriamo l’etica e la crescita come mutuamente esclusive. La fiducia dei nostri clienti e la relazione che costruiamo con loro sono questioni di massima importanza. Capiamo che possiamo raggiungere il successo a lungo termine solo se raccogliamo i dati in termini trasparenti e in conformità con le leggi applicabili.
Pertanto, mettiamo in atto un protocollo di selezione rigoroso per i nostri utenti. Ciò è progettato per garantire che i dati che raccogliamo vengano utilizzati in modo etico. Allochiamo tempo, sforzi e risorse alla conformità e alla sicurezza per proteggere i nostri clienti e il pubblico in generale. Seguendo le pratiche di raccolta di dati etiche, riusciamo a raggiungere il successo aziendale contribuendo al contempo a creare un ecosistema di AI trasparente e responsabile.
Come Bright Data rimane al passo con i cambiamenti normativi nella privacy dei dati?
Capire che i nostri processi e le nostre politiche di utilizzo dei dati devono inevitabilmente cambiare per riflettere i cambiamenti nelle leggi e norme rilevanti. Pertanto, consultiamo regolarmente esperti legali e ci comunichiamo con gli organi normativi. Partecipiamo anche a discussioni con legislatori e altri coinvolti nella creazione di politiche, fornendo input nella stesura di norme sui dati significative. Cerchiamo di trovare un equilibrio tra innovazione e privacy dei dati.
Il nostro quadro di raccolta e utilizzo dei dati evolve man mano che vengono emesse nuove leggi e norme vengono riviste. Abbiamo un team di conformità che aggiorna proattivamente le nostre politiche di utilizzo dei dati per assicurarsi che la nostra piattaforma sia sempre pienamente conforme. Inoltre, operiamo iniziative di educazione dei clienti per promuovere l’uso etico dei dati.
Quali sono le tendenze emergenti nella raccolta di dati di AI che le aziende dovrebbero conoscere?
La raccolta di dati in tempo reale sta diventando una necessità per i modelli di AI di oggi. È fondamentale per loro accedere ai dati più recenti o freschi per offrire un alto livello di accuratezza e fornire migliori esperienze utente.
Un’altra tendenza degna di nota è la dipendenza dai dati sintetici utilizzati per il data augmentation, in cui l’AI genera dati che integrano i set di dati raccolti da scenari del mondo reale.
Sto anche vedendo un forte interesse nel perseguire l’AI spiegabile. La maggior parte dei modelli di AI attuali soffre dell’effetto scatola nera, o della mancanza di trasparenza nei loro processi decisionali. Le aziende stanno cercando di cambiare questo paradigma creando modelli di AI che possano dettagliare come sono arrivati ai risultati o alle decisioni che prendono.
Infine, le aziende sono consapevoli delle crescenti preoccupazioni sulla privacy dei dati. È per questo che le tecniche di AI finalizzate alla conservazione della privacy dei dati, come l’apprendimento federato, stanno diventando richieste. Le organizzazioni vogliono massimizzare l’addestramento dei modelli di AI senza compromettere la privacy dei dati degli utenti.
Ci assicuriamo di essere al passo con queste tendenze, in modo da poter costruire soluzioni che consentano alle squadre di AI di mantenere un vantaggio competitivo.
Come vedi gli agenti di AI e l’automazione cambiare il paesaggio della raccolta di dati?
Attualmente, i modelli di AI utilizzano set di dati strutturati che vengono principalmente raccolti manualmente. Questi set di dati vengono anche sottoposti a pre-elaborazione, pulizia e altri processi che di solito coinvolgono l’intervento umano. Ciò sta per cambiare nel prossimo futuro con l’avvento degli agenti di AI per la raccolta e l’elaborazione autonome dei dati per l’addestramento di AI. Consentono di apprendere automaticamente dai dati web in tempo reale su una scala senza precedenti.
Abbiamo creato un’infrastruttura che supporta il dispiegamento e l’evoluzione degli agenti di AI, consentendo un accesso fluido ai dati web di alta qualità in tempo reale. Questa tecnologia consente a sistemi di AI sofisticati di interfacciarsi costantemente con i dati web dinamici, imparare da essi e crescere.
Gli agenti di AI possono trasformare interi settori poiché consentono ai sistemi di AI di accedere e imparare da set di dati in continua evoluzione sul web, anziché affidarsi a dati statici e manualmente elaborati. Ciò può portare a chatbot di banca o sicurezza informatica di AI, ad esempio, che sono in grado di prendere decisioni che riflettono le realtà più recenti. Ciò si traduce in enormi progressi di efficienza e in più aree per l’automazione.
In Bright Data, non stiamo solo consentendo questa trasformazione nel paesaggio della raccolta di dati. Crediamo di essere all’avanguardia, introducendo una tecnologia che segna l’avvento della prossima generazione di intelligenza artificiale. Siamo entusiasti di aiutare le aziende e le squadre di AI a sfruttare appieno il potenziale degli agenti di AI per le loro operazioni.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Bright Data.












