Interviste
Denas Grybauskas, Chief Governance e Strategy Officer di Oxylabs – Intervista

Denas Grybauskas è il Chief Governance e Strategy Officer di Oxylabs, un leader globale nella raccolta di intelligenza web e soluzioni di proxy premium.
Fondata nel 2015, Oxylabs fornisce una delle più grandi reti di proxy eticamente sorgenti del mondo – che copre oltre 177 milioni di IP in 195 paesi – insieme a strumenti avanzati come Web Unblocker, Web Scraper API e OxyCopilot, un assistente di scraping alimentato da AI che converte query di dati strutturati in linguaggio naturale.
Ha avuto un percorso legale e di governance impressionante nello spazio tecnologico legale della Lituania. Cosa l’ha motivata personalmente ad affrontare una delle sfide più polarizzanti dell’AI – l’etica e il copyright – nel suo ruolo in Oxylabs?
Oxylabs è sempre stata la bandiera della innovazione responsabile nel settore. Siamo stati i primi a sostenere la fonte etica dei proxy e gli standard dell’industria di web scraping. Ora, con l’AI che si muove così velocemente, dobbiamo assicurarci che l’innovazione sia bilanciata con la responsabilità.
Abbiamo visto questo come un enorme problema che affligge l’industria dell’AI e abbiamo anche visto la soluzione. Fornendo questi set di dati, stiamo abilitando le aziende di AI e i creatori a essere sulla stessa pagina riguardo allo sviluppo di AI equo, il che è benefico per tutti i coinvolti. Sapevamo quanto fosse importante mantenere i diritti dei creatori in primo piano, ma anche fornire contenuti per lo sviluppo di futuri sistemi di AI, quindi abbiamo creato questi set di dati come qualcosa che possa soddisfare le richieste del mercato di oggi.
Il Regno Unito è in mezzo a una battaglia sui diritti d’autore, con voci forti su entrambi i lati. Come interpreta lo stato attuale del dibattito tra l’innovazione dell’AI e i diritti dei creatori?
È importante che il governo del Regno Unito favorisca l’innovazione tecnologica produttiva come priorità, ma è vitale che i creatori si sentano rafforzati e protetti dall’AI, non derubati. Il quadro giuridico attualmente in discussione deve trovare un punto dolce tra la promozione dell’innovazione e, allo stesso tempo, la protezione dei creatori, e spero che nelle prossime settimane vedremo trovare un modo per raggiungere un equilibrio.
Oxylabs ha appena lanciato il primo set di dati etici di YouTube, che richiede il consenso del creatore per l’addestramento dell’AI. Come funziona esattamente il processo di consenso – e quanto è scalabile per altri settori come la musica o la pubblicazione?
Tutti i milioni di video originali nei set di dati hanno il consenso esplicito dei creatori per essere utilizzati per l’addestramento dell’AI, collegando creatori e innovatori in modo etico. Tutti i set di dati offerti da Oxylabs includono video, trascrizioni e metadati ricchi. Sebbene tali dati abbiano molti casi d’uso potenziali, Oxylabs li ha raffinati e preparati specificamente per l’addestramento dell’AI, che è l’uso a cui i creatori di contenuti hanno acconsentito consapevolmente.
Molti leader tecnologici sostengono che richiedere il consenso esplicito da parte di tutti i creatori potrebbe “uccidere” l’industria dell’AI. Qual è la sua risposta a questa affermazione e come l’approccio di Oxylabs dimostra il contrario?
Richiedere che, per ogni utilizzo di materiale per l’addestramento dell’AI, ci sia un consenso esplicito preventivo presenta sfide operative significative e comporterebbe un costo significativo per l’innovazione dell’AI. Invece di proteggere i diritti dei creatori, potrebbe involontariamente incentivare le aziende a spostare le attività di sviluppo in giurisdizioni con un’applicazione meno rigorosa o con regimi di diritto d’autore diversi. Tuttavia, ciò non significa che non ci possa essere un terreno comune in cui lo sviluppo dell’AI sia incoraggiato mentre il diritto d’autore è rispettato. Al contrario, ciò di cui abbiamo bisogno sono meccanismi funzionali che semplifichino la relazione tra aziende di AI e creatori.
Questi set di dati offrono un approccio per andare avanti. Il modello di opt-out, in base al quale il contenuto può essere utilizzato a meno che il titolare del diritto d’autore non si opponga esplicitamente, è un altro. Il terzo modo sarebbe facilitare la stipula di accordi tra editori, creatori e aziende di AI attraverso soluzioni tecnologiche, come piattaforme online.
Infine, qualsiasi soluzione deve operare entro i limiti delle leggi applicabili sul diritto d’autore e la protezione dei dati. In Oxylabs, crediamo che l’innovazione dell’AI debba essere perseguita in modo responsabile e il nostro obiettivo è contribuire a quadri giuridici legittimi e pratici che rispettino i creatori mentre consentono il progresso.
Quali sono stati gli ostacoli più grandi che il suo team ha dovuto superare per rendere i set di dati basati sul consenso viable?
La strada per noi è stata aperta da YouTube, che ha consentito ai creatori di contenuti di concedere facilmente e convenientemente la licenza per l’addestramento dell’AI. Dopo di che, il nostro lavoro è stato principalmente tecnico, consistente nel raccogliere dati, pulirli e strutturarli per preparare i set di dati e costruire l’intero setup tecnico per consentire alle aziende di accedere ai dati di cui avevano bisogno. Ma questo è qualcosa che abbiamo fatto per anni, in un modo o nell’altro. Naturalmente, ogni caso presenta la sua serie di sfide, specialmente quando si tratta di qualcosa di così grande e complesso come i dati multimodali. Ma avevamo sia la conoscenza che la capacità tecnica per farlo. Una volta che gli autori di YouTube hanno avuto la possibilità di dare il consenso, il resto è stato solo questione di mettere il nostro tempo e le nostre risorse in esso.
Oltre al contenuto di YouTube, prevede un futuro in cui altri tipi di contenuto importanti – come la musica, la scrittura o l’arte digitale – possano anche essere concessi in licenza in modo sistematico per essere utilizzati come dati di addestramento?
Da un po’ di tempo, stiamo sottolineando la necessità di un approccio sistematico al consenso e alla concessione di licenze per consentire l’innovazione dell’AI mentre si bilancia con i diritti dei creatori. Solo quando c’è un modo conveniente e cooperativo per entrambe le parti per raggiungere i loro obiettivi, ci sarà un beneficio reciproco.
Questo è solo l’inizio. Crediamo che fornire set di dati come i nostri in una gamma di settori possa fornire una soluzione che finalmente porta il dibattito sui diritti d’autore a una chiusura amichevole.
Quanto varia l’importanza di offerte come i set di dati etici di Oxylabs a seconda degli approcci di governance dell’AI nell’UE, nel Regno Unito e in altre giurisdizioni?
Da un lato, la disponibilità di set di dati basati sul consenso esplicito livella il campo per le aziende di AI basate in giurisdizioni in cui i governi tendono verso una regolamentazione più rigorosa. La preoccupazione principale di queste aziende è che, invece di sostenere i creatori, regole rigorose per ottenere il consenso daranno solo un vantaggio ingiusto agli sviluppatori di AI in altre giurisdizioni. Il problema non è che queste aziende non si curano del consenso, ma piuttosto che senza un modo conveniente per ottenerlo, sono condannate a rimanere indietro.
Da un altro lato, crediamo che se il consenso e l’accesso ai dati concessi in licenza per l’addestramento dell’AI vengono semplificati, non c’è ragione per cui questo approccio non possa diventare il modo preferito a livello globale. I nostri set di dati costruiti su contenuti di YouTube concessi in licenza sono un passo verso questa semplificazione.
Con la crescente sfiducia del pubblico su come viene addestrata l’AI, come pensa che la trasparenza e il consenso possano diventare vantaggi competitivi per le aziende tecnologiche?
Sebbene la trasparenza sia spesso vista come un ostacolo al vantaggio competitivo, è anche la nostra arma più grande per combattere la sfiducia. Maggiore è la trasparenza che le aziende di AI possono fornire, maggiori sono le prove di un addestramento etico e benefico dell’AI, ricostruendo così la fiducia nell’industria dell’AI. E a sua volta, i creatori che vedono che possono ottenere valore dall’innovazione dell’AI avranno più ragioni per concedere il consenso in futuro.
Oxylabs è spesso associata allo scraping di dati e all’intelligenza web. Come si inserisce in questo nuovo iniziativa etica nella visione più ampia dell’azienda?
Il rilascio dei set di dati etici di YouTube continua la nostra missione in Oxylabs di stabilire e promuovere pratiche etiche del settore. Come parte di ciò, abbiamo co-fondato l’iniziativa di raccolta di dati web etici (EWDCI) e introdotto un framework di livelli trasparenti per la fonte dei proxy. Abbiamo anche lanciato il Progetto 4β come parte della nostra missione per consentire ai ricercatori e agli accademici di massimizzare l’impatto della loro ricerca e migliorare la comprensione dei dati web critici.
Guardando avanti, pensa che i governi dovrebbero imporre il consenso predefinito per i dati di addestramento o dovrebbe rimanere un’iniziativa volontaria dell’industria?
In un’economia di mercato libera, è generalmente meglio lasciare che il mercato si corregga da solo. Consentendo all’innovazione di svilupparsi in risposta alle esigenze del mercato, continuiamo a reinventare e rinnovare la nostra prosperità. La legislazione pesante non è mai una buona scelta iniziale e dovrebbe essere utilizzata solo quando tutti gli altri percorsi per garantire la giustizia mentre si consente l’innovazione sono stati esauriti.
Non sembra che abbiamo già raggiunto quel punto nell’addestramento dell’AI. Le opzioni di licenza di YouTube per i creatori e i nostri set di dati dimostrano che questo ecosistema sta attivamente cercando modi per adattarsi alle nuove realtà. Pertanto, mentre è necessaria una regolamentazione chiara per garantire che tutti agiscano entro i loro diritti, i governi potrebbero voler procedere con cautela. Invece di richiedere il consenso espresso in ogni caso, potrebbero voler esaminare i modi in cui le industrie possono sviluppare meccanismi per risolvere le tensioni attuali e prendere spunto da ciò quando legiferano per incoraggiare l’innovazione piuttosto che ostacolarla.
Qual è il consiglio che offrirebbe alle startup e agli sviluppatori di AI che vogliono dare priorità all’uso etico dei dati senza rallentare l’innovazione?
Un modo in cui le startup possono aiutare a facilitare l’uso etico dei dati è sviluppare soluzioni tecnologiche che semplifichino il processo di ottenimento del consenso e il processo di ottenimento del valore per i creatori. Poiché emergono opzioni per acquisire dati sorgenti trasparenti, le aziende di AI non devono compromettere la velocità; pertanto, consiglio loro di tenere gli occhi aperti per tali offerte.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Oxylabs.












