Connect with us

All’interno della nuova corsa alla robotica: dati, modelli e produzione

Leader di pensiero

All’interno della nuova corsa alla robotica: dati, modelli e produzione

mm

L’innovazione raramente emerge in isolamento. Più spesso, nasce dalle conversazioni tra ingegneri, fondatori, ricercatori e investitori che cercano di capire dove sta andando la tecnologia.

Nel corso di un anno, ho partecipato a decine di conferenze in tutto il mondo. I viaggi di lavoro a volte durano mesi e le riunioni con partner e clienti si svolgono dall’Asia al Nord America. Eppure, uno dei miei recenti viaggi in Svizzera si è rivelato particolarmente interessante – soprattutto a causa delle persone e delle conversazioni che si sono svolte lì.

Zurigo si è rivelata una delle città dove il futuro della robotica e dell’Intelligenza Artificiale Fisica è attivamente discusso oggi. E più a fondo si scende in queste conversazioni, più diventa evidente che la vera corsa nella robotica si sta svolgendo intorno ai dati.

La Silicon Valley d’Europa

Zurigo è tradizionalmente associata al settore finanziario, ma negli ultimi anni è sempre più stata chiamata la Silicon Valley d’Europa. Gran parte di questa reputazione è legata all’ETH Zurigo, una delle università di ingegneria più rispettate d’Europa. Attrae ricercatori, studenti di dottorato, imprenditori e ingegneri da tutto il mondo. Di conseguenza, si è formato un potente ecosistema tecnologico intorno all’università, dove la ricerca, le startup e i progetti industriali evolvono quasi simultaneamente.

Una delle ragioni del mio viaggio era quella di capire meglio cosa Introspector possa offrire al mercato della robotica, che è in pieno boom dal principio del 2025. È un settore che molte startup stanno cercando di entrare, mentre i progressi tecnologici delle grandi aziende tecnologiche lo stanno attivamente ridisegnando. Eppure, nonostante tutto questo slancio, il settore solleva ancora più domande di quante ne risponda.

Zurigo è anche la sede dei nostri partner Lightly, che mi hanno aiutato a conoscere i miei colleghi che lavorano all’intersezione della robotica, del computer vision e dell’Intelligenza Artificiale. C’è un aspetto importante dell’ecosistema tecnologico locale che vorrei sottolineare: le persone qui sono notevolmente aperte e accoglienti. Non hanno paura di condividere le loro idee e ipotesi, di parlare delle sfide che stanno cercando di risolvere e degli esperimenti che stanno conducendo. Di conseguenza, si inizia a capire il contesto reale del mercato e dove l’industria sta andando molto più velocemente.

Per inciso, quando la gente mi chiede come la “Silicon Valley” europea differisca da quella americana, la risposta spesso li sorprende. A Zurigo, l’equilibrio tra lavoro e vita si sente molto più forte: sport al mattino, lavoro concentrato durante il giorno in un ritmo calmo ma produttivo, e serate trascorse in montagna con la famiglia o semplicemente rilassandosi. A San Francisco, c’è spesso la sensazione che si debba costantemente dimostrare di lavorare più duramente di tutti gli altri. A Zurigo, il ritmo è diverso – più sostenibile. Eppure, il livello di ambizione tecnologica qui non è più basso.

Dati migliori prima di robot migliori

Una delle principali conclusioni di questo viaggio è stata una semplice osservazione: molte persone oggi vogliono lavorare nella robotica. Ma nonostante l’enorme interesse per il settore, molte squadre sono ancora in una fase esplorativa, cercando di capire quale ruolo possano svolgere nella nuova ondata di robotica e Intelligenza Artificiale Fisica, e quale contributo possano dare.

Molte conversazioni alla fine convergono sullo stesso argomento: i dati. Oggi, l’industria mancano di dati sui compiti di destrezza, ovvero le abilità motorie fini. In questo ambito, le capacità dei robot rimangono estremamente limitate. Quello che gli esseri umani fanno con le loro mani quasi automaticamente – raccogliere un oggetto, girarlo, posizionarlo con cura da qualche parte o eseguire una piccola manipolazione – rimane una delle sfide più difficili per i robot.

La chiave del progresso qui risiede principalmente in grandi dataset raccolti e gestiti correttamente. Oggi, la gente parla spesso di dataset egocentrici, registrati da una prospettiva in prima persona, dove il sistema cattura le azioni umane come se le stesse eseguendo lui stesso. Tuttavia, nella pratica, si scopre che il concetto stesso di “dataset egocentrico” può significare cose molto diverse e solleva una serie di domande tecniche. Dov’è posizionata la telecamera? Sulla fronte, sul petto o forse all’altezza degli occhi? Quali sensori dovrebbero accompagnare la registrazione video? Se stiamo catturando i movimenti delle mani, gli operatori dovrebbero utilizzare guanti speciali? E se sì, dovrebbero questi guanti includere sensori tattili, giroscopi o altri sistemi di tracciamento del movimento?

Una domanda ancora più complessa sorge: come catturare correttamente la profondità del movimento. Dopo tutto, è importante capire non solo la posizione di una mano in un piano bidimensionale, ma anche come si muove nello spazio tridimensionale – in avanti, indietro, su o giù.

Finora, l’industria non ha ancora raggiunto una risposta unificata. È per questo che molte squadre oggi stanno sperimentando con diverse configurazioni di sensori, metodi di registrazione e formati di dataset.

Sistemi multimodali

Non appena la conversazione si sposta sulla raccolta di dati per la robotica, emerge rapidamente un altro argomento – sensori aggiuntivi e multimodalità, che consentono di catturare i movimenti del corpo, le azioni delle mani e le interazioni con gli oggetti con maggiore precisione. Aiutano anche a ridurre gli errori durante la raccolta dei dataset.

Quando una persona registra le sue azioni con una telecamera, c’è sempre il rischio che parte del materiale sia inutilizzabile. La telecamera può spostarsi leggermente, l’angolo di ripresa può essere scorretto, l’operatore può accidentalmente girarsi dalla parte sbagliata o l’operatore può eseguire un movimento troppo velocemente. Di conseguenza, una parte significativa del materiale registrato viene scartata. Un semplice esempio: per ottenere un’ora di video veramente utilizzabile, un operatore spesso deve registrare intorno a due ore di materiale grezzo.

I sensori aggiuntivi aiutano a compensare alcuni di questi problemi. Anche se la telecamera si sposta leggermente, i dati dei sensori possono ancora rendere possibile la ricostruzione del movimento della mano o della posizione del corpo nello spazio. Di conseguenza, invece di due ore di registrazione, potrebbe servire circa un’ora e venti minuti per ottenere la stessa quantità di dati utili. Ciò aumenta notevolmente l’efficienza della raccolta dei dataset e riduce i costi della loro creazione.

Non è quindi una coincidenza che molte squadre notino anche un crescente interesse per l’annotazione dei dati multimodali. Ciò è diventato una delle tendenze più visibili direttamente collegate allo sviluppo della robotica e dell’Intelligenza Artificiale incorporata.

Il prossimo punto è l’etichettatura di tali dataset. Abbiamo incontrato domande simili in Keymakr quando lavoravamo con dataset di clienti per casi di robotica: come dovrebbe essere l’aspetto di tale annotazione nella pratica? Dovrebbe essere scheletrica? Bidimensionale o tridimensionale? Dovrebbero essere incorporati elementi di apprendimento per rinforzo nel pipeline? Ci sono dozzine di tali domande. Gli ingegneri stessi ammettono che ancora nessuno può dire con certezza quale configurazione di dati particolare porterà alla fine a un vero e proprio progresso tecnologico.

Queste preoccupazioni sono comprensibili. La creazione di dataset complessi è un processo costoso. Ogni errore nella struttura dei dati può costare migliaia o addirittura milioni di dollari. È possibile raccogliere il “dataset sbagliato” o registrarli in condizioni difficili da riprodurre nel mondo reale, minando così l’intero progetto. È proprio per questo che oggi, sempre più attenzione è rivolta sia ai modelli stessi che alla qualità e all’architettura dei dati su cui quei modelli sono addestrati.

Quali robot ha bisogno il mercato?

I classici robot industriali, che hanno operato nelle linee di montaggio automobilistiche per decenni, richiedono in realtà molto poca visione computerizzata o modelli di Intelligenza Artificiale complessi. Il loro compito è estremamente specifico: eseguire movimenti strettamente ripetitivi – sinistra, destra, su, giù – con alta precisione e coerenza. In questo ambito, hanno da tempo superato gli esseri umani.

Una categoria completamente diversa è quella dei robot umanoidi. Questi sistemi richiedono “cervelli”: la capacità di navigare nello spazio, percepire l’ambiente circostante, capire il contesto di una situazione e controllare i manipolatori non attraverso traiettorie preprogrammate, ma adattandosi al mondo reale.

Anche con l’alto livello di automazione sui moderni pavimenti di fabbrica, molti compiti sono ancora eseguiti dagli esseri umani. Spostare un oggetto, raccogliere una scatola, ordinare pezzi, fissare un componente o organizzare materiali – queste sono piccole azioni che richiedono flessibilità e coordinazione. Questa area rimane una delle più difficili da automatizzare, ed è proprio qui che i sistemi umanoidi possono trovare il loro ruolo.

Molte delle squadre con cui ho parlato stanno utilizzando un modello di business simile. Si avvicinano a una fabbrica e propongono di risolvere un caso di produzione specifico. Ad esempio, un lavoratore potrebbe trascorrere l’intera giornata spostando scatole tra le zone del magazzino. Gli ingegneri suggeriscono un esperimento relativamente semplice: equipaggiare il lavoratore con una telecamera e un set di sensori, registrare migliaia di ore delle sue azioni e utilizzare questi dati per addestrare un modello che controllerà un robot umanoide. In questo modo, il robot apprende a eseguire esattamente i compiti eseguiti dal lavoratore umano.

In sostanza, l’azienda acquista una piattaforma umanoide, mentre il team di sviluppo costruisce un modello personalizzato che replica il comportamento di un operatore specifico. Non si tratta di un’intelligenza universale in grado di risolvere qualsiasi compito. Piuttosto, è un insieme di abilità addestrate per uno scenario o un gruppo di compiti di produzione specifici. Per molti ingegneri oggi, questo approccio sembra molto più realistico. Invece di cercare di creare un robot universale immediatamente, le squadre si concentrano su scenari di automazione ristretti ma economicamente fattibili.

La dimensione aziendale

Se il futuro giace nei modelli personalizzati, è importante capire che, da un punto di vista economico, questo è un percorso di sviluppo abbastanza lungo.

Ogni industria è essenzialmente il suo mondo. Ogni ambiente di produzione ha i propri processi, flussi di lavoro e eccezioni. Un robot addestrato per operare in una fabbrica automobilistica non può semplicemente essere trasferito alla produzione di alimenti o alla logistica dei magazzini. In ogni caso, il sistema deve essere riaddestrato da zero.

Ciò porta alla prossima domanda logica: chi saranno i primi clienti di tale tecnologia?

A questo stadio, i principali adottanti saranno probabilmente le grandi imprese – quelle con i budget e per le quali l’automazione può generare un impatto economico significativo. Oggi, un robot umanoide costa all’incirca 60.000-90.000 dollari solo per il hardware di base. Questo è solo la configurazione di base. In aggiunta, ci sono i costi di manutenzione, le batterie, le stazioni di ricarica, l’infrastruttura e il software.

Di conseguenza, le aziende più in grado di sperimentare con tali sistemi sono le grandi organizzazioni, i produttori automobilistici, le società alimentari e le grandi imprese industriali.

Naturalmente, anche i settori più piccoli potrebbero vedere alcuni adottanti precoci. Alcune aziende potrebbero acquistare uno o due robot per compiti specifici. Tuttavia, nella maggior parte dei casi, queste aziende non sono ancora pronte a investire centinaia di migliaia di euro nella raccolta e nell’annotazione dei dataset personalizzati necessari per addestrare sistemi per scenari operativi altamente specifici. Per loro, il lavoro umano rimane ancora l’opzione più economica.

La lunga partita dell’innovazione nella robotica

Arriviamo infine a una fondamentale domanda economica: cosa è più efficiente – un essere umano o un robot? Se guardiamo all’economia di oggi, la risposta è ovvia: il lavoro umano è più economico, si adatta più rapidamente a nuove condizioni e non richiede infrastrutture complesse.

Quindi, perché l’industria continua a investire nella robotica oggi? La risposta è in gran parte strategica.

Molte aziende capiscono che una sorta di corsa per la leadership tecnologica è in corso. Stanno già sviluppando soluzioni, nonostante i costi elevati, per essere in vantaggio quando l’economia della robotica si sposterà.

Man mano che l’elettronica si evolve, i costi dei componenti scendono e l’efficienza del calcolo migliora, la robotica diventerà inevitabilmente più accessibile. E quando ciò accadrà, il vantaggio apparterrà alle aziende che hanno già costruito modelli, accumulato dati e stabilito la necessaria infrastruttura tecnologica.

Immaginate, ad esempio, che nuove normative emergano che consentono l’uso su larga scala di robot umanoidi nella produzione. O che i governi inizino a sovvenzionare la robotizzazione delle industrie. In uno scenario del genere, il mercato potrebbe crescere drasticamente nel giro di pochi anni. E coloro che si sono preparati in anticipo, coloro che hanno modelli esistenti, ricerche, dataset e una tecnologia pronta, saranno quelli che trarranno il maggior vantaggio.

È per questo che lo sviluppo continua anche ora, nonostante il fatto che l’economia aziendale potrebbe non sembrare ancora ideale. Per molte aziende, si tratta di un investimento nel futuro – nel momento in cui le tecnologie diventeranno più accessibili e la domanda aumenterà bruscamente.

E in questa corsa, come in molte rivoluzioni tecnologiche, un fattore spesso si rivela decisivo: chi ha iniziato prima. In questo senso, la robotica odierna assomiglia molto ai primi stadi dell’Intelligenza Artificiale. All’epoca, c’erano anche più domande che risposte. Eppure, sono state le squadre che hanno iniziato a lavorare con i dati e l’infrastruttura prima degli altri a plasmare alla fine la direzione dell’intera industria.

Michael Abramov è il fondatore e CEO di Introspector, portando oltre 15+ anni di esperienza nel campo dell'ingegneria del software e dei sistemi di intelligenza artificiale della visione computerizzata per la costruzione di strumenti di etichettatura di livello aziendale.

Michael ha iniziato la sua carriera come ingegnere del software e dirigente R&D, costruendo sistemi di dati scalabili e gestendo team di ingegneria cross-funzionali. Fino al 2025, ha ricoperto il ruolo di CEO di Keymakr, un'azienda di servizi di etichettatura dei dati, dove ha sviluppato workflow human-in-the-loop, sistemi di controllo qualità avanzati e strumenti personalizzati per supportare le esigenze dei dati di visione computerizzata e autonomia su larga scala.

Possiede una laurea in Scienze informatiche e una formazione in ingegneria e arti creative, portando una lente multidisciplinare per risolvere problemi difficili. Michael vive all'intersezione dell'innovazione tecnologica, della leadership del prodotto strategico e dell'impatto nel mondo reale, spingendo in avanti la prossima frontiera dei sistemi autonomi e dell'automazione intelligente.