Robotica

L’era degli umanoidi non sta arrivando — è già qui

Published July 30, 2025

Updated April 2, 2026

Artem Sokolov, Founder of Humanoid

All’inizio di questo mese, in Cina, un robot umanoide di nome Shuang Shuang è salito sul palco ad una cerimonia di laurea di una scuola superiore a Fujian per ricevere un diploma — stringendo la mano e dilettando studenti e insegnanti. Momenti come questi rappresentano un significativo cambiamento, uno in cui i robot umanoidi stanno iniziando a entrare nella vita pubblica in modi molto visibili.

Questi momenti segnano più che una curiosità pubblica — segnalano un passaggio verso un’integrazione nel mondo reale. Questo articolo esplora come gli umanoidi passano da spettacolo e spettacolarità alla funzionalità — e perché ciò che sembra essere un’impresa di sola hardware è, in realtà, questione di intelligenza integrata che consente a queste macchine di camminare, interagire e imparare in ambienti non progettati per l’automazione. Discuteremo anche di come affrontiamo la commercializzazione attraverso il dispiegamento precoce e partnership a lungo termine.

Come gli umanoidi spingono l’AI nel mondo reale

Il divario tra le prestazioni virtuali e l’affidabilità fisica rimane una delle sfide più trascurate nell’AI. Un chatbot può generare paragrafi di testo fluente senza dover agire su di essi — allo stesso modo, un modello di visione può identificare un passo in un’immagine senza doverlo percorrere fisicamente o rischiare di cadere. Gli umanoidi non hanno questo lusso.

Per funzionare nel mondo reale, l’AI deve lasciarsi alle spalle i set di dati statici e le condizioni controllate. Deve vedere, decidere e agire in ambienti che cambiano secondo dopo secondo. Ciò include pavimenti irregolari, oggetti spostati, comportamenti umani imprevedibili e segnali non verbali dipendenti dal contesto. Il risultato è una quotidiana confrontazione con rumore, ambiguità e potenziale fallimento.

È qui che l’argomentazione incorporata — dove il linguaggio è radicato nello spazio, nel tempo e nelle conseguenze — inizia a contare più della previsione dei token. Ad esempio, se un umano dice “attento, è scivoloso”, il robot deve collegare quella frase non solo alla definizione della parola, ma anche alla consapevolezza spaziale, ai rischi potenziali e agli aggiustamenti in tempo reale.

Allo stesso tempo, l’apprendimento multimodale diventa essenziale, perché nessun canale di input è abbastanza affidabile da operare da solo. Una telecamera potrebbe perdere una superficie scivolosa, ma i sensori di pressione nel piede possono rilevare una perdita improvvisa di trazione. O, in un’altra situazione, il riconoscimento vocale potrebbe fallire in un magazzino rumoroso, ma i segnali visivi o i gesti possono colmare il divario.

La generalizzazione diventa anche critica. Un robot non può affidarsi a vedere l’ambiente esatto due volte. Deve adattare il suo comportamento quando il pavimento è bagnato, la luce cambia o la scatola non è dove era ieri. Ciò diventa la differenza tra esecuzione di successo e fallimento.

In Humanoid, questo è il motivo per cui iniziamo a testare presto con partner commerciali. Integriamo i nostri robot in ambienti live per scoprire tempestivamente potenziali difetti e assicurare il funzionamento ottimale prima del dispiegamento. Un robot che si esegue bene in simulazione o demo non è lo stesso di uno che guadagna fiducia sotto pressione, perché quella fiducia è costruita sull’apprendimento nel mondo reale.

Sappiamo che gli umanoidi saranno disponibili commercialmente entro i prossimi due anni — ma non aspettiamo. Per noi, la commercializzazione inizia presto. Significa costruire partnership a lungo termine intorno a casi d’uso reali. Attraverso una serie di programmi pilota, non solo educiamo i nostri partner sulla tecnologia — ma impariamo anche insieme a loro. Questo processo di apprendimento condiviso ci aiuta anche a raffinare le strutture dei costi e l’affidabilità delle prestazioni fin dal primo giorno — assicurando il miglior costo totale di proprietà (TCO) possibile mentre i sistemi si espandono.

Perché gli umanoidi sono il test più importante per l’intelligenza generale

Il mondo che abbiamo creato nell’ultimo secolo è stato progettato per la scala umana. Maniglie delle porte, carrelli elevatori, magazzini — tutto presume determinate dimensioni, ranghi di movimento e comportamenti sociali impliciti. Gli umanoidi devono adattarsi a quella realtà o rischiano di essere estremamente limitati nella loro funzionalità.

Per salire le scale, portare un oggetto, interpretare un gesto di puntamento o riconoscere l’esitazione in una voce, un robot deve capire il contesto ben al di là della classificazione visiva o della pianificazione del movimento scriptata. Deve inferire l’intenzione, imparare un nuovo compito guardando un umano, adattare quella competenza a un layout leggermente diverso e migliorare le sue prestazioni nel tempo. Nella pratica, questo sistema sta effettivamente espandendo ciò che l’AI può fare sotto vincoli reali.

In Humanoid, acceleriamo quel processo attraverso la teleoperazione. Nelle fasi iniziali di sviluppo, gli operatori umani guidano il robot attraverso compiti chiave. Questi dati manuali diventano la base per l’addestramento di nuovi comportamenti. Nel tempo, queste dimostrazioni alimentano i nostri modelli end-to-end, aiutandoci a costruire verso un’autonomia affidabile.

Dai sistemi ristretti all’intelligenza integrata

La maggior parte dei sistemi AI di oggi eccelle in compiti ristretti. In isolamento, ognuno di essi funziona bene. Ma gli umanoidi non hanno bisogno di specialisti disconnessi. Per integrarsi con successo, abbiamo bisogno di sistemi che possano ragionare attraverso modalità e scale temporali.

Un umanoide potrebbe ricevere un’istruzione relativamente vaga — “Vai a prendere la scatola gialla dal magazzino attraverso il corridoio” — e doverla decodificare in una sequenza di sottocompiti: localizzare il parlante, navigare un corridoio, identificare la scatola giusta, regolare la forza di presa, evitare collisioni e, naturalmente, tornare in sicurezza.

Ogni parte di quella sequenza coinvolge un sottosistema diverso — visione, locomozione, linguaggio, manipolazione e feedback. E l’affidabilità dell’intero sistema dipende da come bene queste parti comunicano sotto condizioni che cambiano.

L’architettura modulare è un modo per affrontare questa sfida. Ciò ci consente di iterare sui sottosistemi in modo indipendente mentre raggiungiamo una coordinazione a livello di sistema. Inoltre, ciò ci consente di scalare le capacità attraverso più ambienti senza dover ricostruire da zero. È così che passiamo dalle demo chiuse alle prestazioni nel mondo aperto.

Le poste in gioco sono massive — e sono globali

È facile inquadrare gli umanoidi come futuristici. Ma quando parliamo con i nostri clienti, il bisogno è immediato. Molti magazzini, linee di montaggio e altri siti di lavoro un tempo affollati stanno ora lottando per rimanere dotati di personale.

Queste carenze di manodopera sono questioni demografiche. In Giappone, quasi il 30% della popolazione ha più di 65 anni. In Europa, settori chiave — che hanno una payroll di 1,7 trilioni di dollari — stanno lottando per reclutare lavoratori più giovani. Questi non sono i tipi di ruoli che la maggior parte delle persone vuole, e sempre più, non sono i tipi di ruoli che le persone sono disposte a fare.

Introducendosi come aiutanti, non come sostituti, gli umanoidi possono assumere compiti fisicamente impegnativi, ripetitivi o pericolosi — spostare inventario, caricare pallet, operare macchinari — senza il rischio di affaticamento o lesioni. Ciò libera i lavoratori umani per concentrarsi su aspetti più complessi, creativi o interpersonali del lavoro.

Inoltre, ciò crea una resilienza economica a lungo termine. Quando la manodopera è volatile o non disponibile, le macchine intelligenti possono aiutare a garantire la continuità — tutto senza sacrificare sicurezza, qualità o adattabilità.

Un altro aspetto da evidenziare è il quadro normativo. La maggior parte delle squadre — specialmente in giurisdizioni scarsamente regolamentate — aspetta di pensare a questo. Noi abbiamo iniziato da lì. Le leggi sulla sicurezza e sui dati dell’Europa sono tra le più severe del mondo, ma invece di trattarle come ostacoli, le consideriamo il nostro vantaggio competitivo. Mentre altri mercati adottano regolamentazioni più stringenti, saremo pronti a soddisfarle, mentre altre aziende potrebbero affannarsi.

Una nuova corsa all’AI — ma non quella che pensi

Gran parte del discorso sull’AI oggi si concentra sul potere di calcolo, sui parametri e sui dati di addestramento. Ma il vero punto di svolta potrebbe provenire da un’altra frontiera: l’integrazione nel mondo fisico. È lì che l’intelligenza deve imparare a eseguire, invece di semplicemente prevedere.

A questo riguardo, la gara è per il sistema più capace — uno che possa operare in spazi pubblici, sotto vincoli di sicurezza e con gli umani nel loop. Questo sistema, oltre a imparare dai dati, imparerà anche — e soprattutto — dalla realtà e lavorerà insieme alle persone senza interrompere il flusso delle cose.

È per questo che non aspettiamo fino al dispiegamento per iniziare. Fin dall’inizio, lavoriamo direttamente con partner commerciali per integrarci in ambienti reali — assicurando che il sistema migliori dove più conta: nella pratica.

Quell’apprendimento nel mondo reale è esattamente dove i sistemi ristretti falliscono. Mentre questi ci hanno portato lontano, non sono stati progettati per questo tipo di complessità. Gli umanoidi richiedono qualcos’altro — coordinazione, robustezza e, come menzionato, la capacità di imparare dall’inaspettato.

È l’enorme opportunità che abbiamo di fronte. Non automatizzare tutto, ma costruire macchine che possano capire, navigare e collaborare con il mondo umano.

Unite.AI