Connect with us

Leader di pensiero

Il Vero Costo dell’Addestramento dei Robot

mm

Nella prima parte, abbiamo discusso di come i robot evolvono da meccanismi di base alla comprensione del loro ambiente. Allo stadio del “ultimo miglio” – quando i robot subiscono un addestramento post-trattamento per compiti specifici e personalizzati – emerge un ostacolo inaspettato. È legato ai dati: alla loro raccolta, organizzazione e scalabilità in condizioni del mondo reale.

È proprio a questo stadio che il divario tra concetto e implementazione diventa più evidente. Quali sono gli ostacoli chiave e come possono essere superati con il minimo attrito?

Perché migliaia di ore di dati si trasformano in anni di lavoro

Immaginiamo di avere già un robot addestrato che ha subito un pre-addestramento. Può navigare nel suo ambiente, muoversi, evitare ostacoli e interagire con gli oggetti. È come un “bambino di dieci anni” che è generalmente in grado di agire in modo indipendente. Il prossimo passo è insegnargli a eseguire azioni specifiche in condizioni specifiche, ad esempio installare pannelli di vetro e strisce di sigillatura su una linea di produzione automobilistica.

A prima vista, il compito sembra più semplice. Richiede il dominio di un singolo scenario e il volume di dati richiesto è significativamente inferiore rispetto al pre-addestramento. Mentre l’addestramento di base può richiedere centinaia di migliaia di ore, l’addestramento post-trattamento potrebbe richiedere solo migliaia di ore. Ma questi numeri sono ingannevoli.

Quando tradotti in tempo reale, il processo rivela la sua vera complessità. In base a un orario di lavoro standard, una persona lavora circa 160 ore al mese. Tuttavia, ciò non significa che tutto quel tempo possa essere utilizzato per la registrazione.

Nella pratica, si verificano costanti interruzioni: le batterie si esauriscono, le telecamere si spostano, i sensori falliscono. Maggiore è la complessità dell’allestimento dell’attrezzatura, maggiore è la probabilità di problemi. Anche un semplice guasto come i sensori su un guanto che smettono di funzionare può bloccare il processo e comportare una perdita di tempo.

Di conseguenza, la velocità effettiva di raccolta dei dati è 2-3 volte inferiore. Un’ora di registrazione di alta qualità può richiedere fino a tre ore di lavoro reale. Ciò cambia radicalmente il calcolo: 5.000 ore di dati si traducono in circa 15.000 ore di lavoro.

Strati su strati di complessità

Durante il pre-addestramento, può essere sufficiente dare a una persona una telecamera e chiederle di registrare attività quotidiane. A questo stadio, tuttavia, è necessario accedere a un ambiente specifico, come una fabbrica, un cantiere edile o una struttura di produzione specializzata.

Ciò introduce immediatamente vincoli pratici. Ad esempio, in un cantiere edile, i lavoratori sono tenuti a indossare caschi di sicurezza, il che significa che devono essere sviluppati attrezzi specializzati: caschi con telecamere integrate resistenti alla polvere, all’umidità e all’impatto.

Poi c’è l’accesso al sito stesso. Devono essere presi accordi con i proprietari del sito, ottenuti permessi e negoziate condizioni. Ciò comporta quasi sempre costi aggiuntivi: le aziende si aspettano un indennizzo e i lavoratori si aspettano di essere pagati per la loro partecipazione.

L’assicurazione e la conformità alla sicurezza diventano anche questioni critiche. Se l’attrezzatura non soddisfa gli standard richiesti, l’assicurazione può essere annullata, costringendo l’intero processo a essere ristrutturato.

Anche a livello di operazioni quotidiane, le sfide persistono. Le telecamere devono essere accese, monitorate e mantenute. I lavoratori operano con guanti e in condizioni avverse. L’attrezzatura si sporca, si logora e si rompe. Una telecamera può spegnersi dopo pochi minuti e la persona potrebbe non accorgersene.

Ciò crea la necessità per i partecipanti di addestrarsi – devono capire come utilizzare l’attrezzatura. Inoltre, è richiesta una supervisione continua – qualcuno deve assicurarsi che la registrazione sia in corso e che i dispositivi funzionino correttamente.

Dal video grezzo ai dati di addestramento

Dopo la registrazione, inizia la prossima fase: raccolta dei dati, caricamento, strutturazione, convalida della qualità e etichettatura.

Qualsiasi dato grezzo consiste di segnali video e di sensori. Per trasformarlo in materiale di addestramento, deve essere strutturato: gli oggetti devono essere identificati, le azioni catturate e gli stati, i movimenti e le interazioni con l’ambiente descritti. È qui che entra in gioco l’annotazione. Sorge una domanda logica – qual è lo standard oro per un tale flusso di lavoro di annotazione?

In alcuni casi, sono sufficienti semplici riquadri di delimitazione per identificare gli oggetti in un frame. In altri, è richiesta un’annotazione temporale per descrivere sequenze di azioni nel tempo. In alcuni scenari, vengono utilizzati punti chiave e modelli scheletrici per catturare il movimento del corpo. In casi più complessi, sono necessi mesh 3D o tracciamento della posizione della mano per rappresentare con precisione la meccanica di interazione. Vengono spesso integrati sensori aggiuntivi, come gli accelerometri, per catturare la dinamica del movimento e la forza applicata.

Progetti come questi richiedono spesso anche la scalabilità del team. L’etichettatura è un compito grande e complesso in sé, che richiede tempo, competenze e risorse umane sostanziali. È qui che entrano in gioco i fornitori di soluzioni di dati con team di annotazione interni. Come Keymakr, che si è dimostrato particolarmente efficace grazie alla sua capacità di scalare i team per soddisfare qualsiasi volume di dati, da un singolo specialista a centinaia di annotatori.

Non c’è un approccio giusto all’addestramento

L’industria è ancora in una fase esplorativa, poiché non c’è un consenso su quale combinazione di dati produca i migliori risultati. Molti approcci sono validati empiricamente perché funzionano in esperimenti specifici. Di conseguenza, diversi team continuano a fare affidamento su tecnologie diverse, plasmate dalla loro esperienza, dai loro compiti e dai loro vincoli.

A livello accademico e applicativo, ciò porta a una frammentazione: laboratori e aziende si muovono in direzioni diverse. La situazione ricorda i primi giorni della guida autonoma quando Tesla puntava su un approccio basato solo sulla visione senza LiDAR, mentre la maggior parte degli altri giocatori sceglieva LiDAR come sensore principale.

Oggi, i sistemi basati su LiDAR tendono a dimostrare prestazioni più stabili, ma l’approccio di Tesla continua a evolversi. La differenza è che nella guida autonoma, il mercato si è largamente consolidato: sono emerse architetture stabili, le limitazioni sono ben comprese e si è accumulata una notevole esperienza.

Al contrario, per il Physical AI e la formazione di modelli simili, questo livello di maturità non è ancora stato raggiunto. Il mercato è ancora in formazione, mancano gli standard e gran parte dei progressi è guidata da esperimenti. Continuano a emergere nuovi metodi per la formazione dei modelli, il miglioramento dell’efficienza e l’adattamento a scenari del mondo reale, suggerendo che i più importanti progressi in questo campo sono ancora davanti a noi.

L’essere umano come sistema di rinforzo

L’etichettatura non esiste in isolamento, né per il modello solo. Serve come strumento per l’ingegnere che costruisce quel modello. Attraverso di essa, formalizza la realtà, identifica i parametri chiave e definisce le regole di comportamento del sistema.

Il compito dell’ingegnere è insegnare al sistema a eseguire azioni correttamente in condizioni del mondo reale. Ad esempio, uno scenario di base può consistere in quattro azioni: raccogliere un bicchiere, accendere il rubinetto, riempirlo e spegnere il rubinetto. Ma nella realtà, si verifica una deviazione – il bicchiere trabocca.

In quel momento, si prevede che il modello completi lo scenario e esegua azioni aggiuntive: interrompere il flusso d’acqua, regolare il livello d’acqua e prevenire lo spreco. Questa è la logica di comportamento basata sulla comprensione del contesto.

L’ingegnere segue un ciclo: annota i dati, addestra il modello, lo testa. Se il sistema funziona, l’ipotesi è confermata. Se non funziona, inizia l’analisi.

A un certo punto, potrebbe diventare chiaro che il modello manca di un parametro importante, come il livello di riempimento del bicchiere. In precedenza, i dati potevano aver incluso annotazioni per oggetti (bicchiere, rubinetto, maniglia) e azioni (apertura, riempimento, chiusura), ma mancavano annotazioni per stato, come il grado di pienezza.

Viene quindi aggiunto un nuovo strato al processo: annotare il livello di riempimento, seguito da una formalizzazione, ad esempio definendo qualsiasi cosa al di sopra dell’85% come stato critico.

Ciò porta alla prossima iterazione dell’addestramento. Potresti avere centinaia di tali iterazioni.

Nessuno assume che il sistema funzionerà correttamente immediatamente. Al contrario, il processo è costruito intorno a successive approssimazioni: prima, si crea una versione di base; poi la si testa in condizioni reali o quasi reali; si identificano le lacune; e il sistema viene raffinato. È qualcosa che discuto spesso con i clienti di Introspector, con cui attraversiamo l’intero viaggio del Physical AI insieme.

A un certo punto, si raggiunge il risultato desiderato. Ma il suo valore non risiede solo nel fatto che il sistema inizia a funzionare, ma nell’esperienza accumulata che consente di riprodurre questo risultato in modo più prevedibile.

L’economia che tutti dimenticano

Nell’ultimo anno o giù di lì, ho notato che il più grande errore che le aziende commettono quando lavorano con dati egocentrici ha poco a che fare con la tecnologia.

Il problema principale è in realtà nella sottovalutazione dell’economia del progetto.

Nella fase dell’idea, la tecnologia è al centro dell’attenzione – quali modelli utilizzare, come addestrarli e quali approcci applicare. Si studia, si ricerca, si discutono architetture e si testano ipotesi. Ciò è naturale: la tecnologia sembra essere la parte più tangibile e ovvia del problema.

Ma molto meno spesso a questo stadio le squadre si pongono una domanda diretta e pratica: quanto costerà?

Quando un progetto passa dalla teoria all’implementazione, diventa chiaro che dietro ogni modello ci sono decine di migliaia di ore di dati. La raccolta di questi dati richiede tempo, accesso a ambienti reali e il coinvolgimento di specialisti. L’etichettatura aggiunge un altro strato di complessità e costo. Di conseguenza, i numeri finali sono spesso di ordini di grandezza superiori a quanto inizialmente previsto.

Ciò non significa che tali progetti non debbano essere intrapresi. Al contrario, sono loro a spingere l’industria in avanti.

Ma ciò che conta è capire la scala della sfida fin dall’inizio. Riconoscere che nella formazione del modello, dietro ogni algoritmo incredibile c’è un lavoro di dati complesso e risorse-intensivo.

Anche le idee più solide falliscono nel raggiungere una piena implementazione quando i costi dei dati iniziano a salire ben al di sopra di sette cifre.

E forse il più importante cambiamento che sta avvenendo nella robotica oggi è legato a questa realizzazione. Il futuro di questi sistemi sarà definito da quanto “intelligenti” saranno e da quanto efficacemente e precisamente l’intera pipeline di dati sarà costruita – dalla raccolta dei dati all’interpretazione finale.

Michael Abramov è il fondatore e CEO di Introspector, portando oltre 15+ anni di esperienza nel campo dell'ingegneria del software e dei sistemi di intelligenza artificiale della visione computerizzata per la costruzione di strumenti di etichettatura di livello aziendale.

Michael ha iniziato la sua carriera come ingegnere del software e dirigente R&D, costruendo sistemi di dati scalabili e gestendo team di ingegneria cross-funzionali. Fino al 2025, ha ricoperto il ruolo di CEO di Keymakr, un'azienda di servizi di etichettatura dei dati, dove ha sviluppato workflow human-in-the-loop, sistemi di controllo qualità avanzati e strumenti personalizzati per supportare le esigenze dei dati di visione computerizzata e autonomia su larga scala.

Possiede una laurea in Scienze informatiche e una formazione in ingegneria e arti creative, portando una lente multidisciplinare per risolvere problemi difficili. Michael vive all'intersezione dell'innovazione tecnologica, della leadership del prodotto strategico e dell'impatto nel mondo reale, spingendo in avanti la prossima frontiera dei sistemi autonomi e dell'automazione intelligente.