Robotik

Den humanoida eran kommer inte — den är redan här

Published July 30, 2025

Updated May 18, 2026

Artem Sokolov, Founder of Humanoid

För några veckor sedan, i Kina, tog en humanoid robot vid namn Shuang Shuang scenen vid en högskoleexamen i Fujian för att ta emot en examen — skaka hand och glädja studenter och lärare. Sådana ögonblick representerar en meningsfull förändring, en där humanoida robotar börjar gå in i offentligt liv på mycket synliga sätt.

Dessa ögonblick markerar mer än allmän nyfikenhet — de signalerar en förändring mot integration i den verkliga världen. Den här artikeln undersöker hur humanoider går från att vara en show och en spektakel till att vara funktionella — och varför det som verkar vara en prestation som enbart beror på maskinvara, i själva verket handlar om den integrerade intelligensen som möjliggör att dessa maskiner kan gå, interagera och lära sig i miljöer som inte är skapade för automatisering. Vi kommer också att diskutera hur vi närmar oss kommersialisering genom tidig distribution och långsiktiga partnerskap.

Hur humanoider för in AI i den verkliga världen

Klyftan mellan virtuell prestation och fysisk tillförlitlighet är en av de mest förbisedda utmaningarna inom AI. En chatbot kan generera flera stycken flytande text utan att någonsin behöva agera på dem — på samma sätt som en modell för syn kan identifiera ett steg i en bild utan att behöva fysiskt navigera det eller riskera att falla. Humanoider har inte den lyxen.

För att fungera i den verkliga världen måste AI lämna de statiska datamängderna och de kontrollerade förhållandena. Det måste se, besluta och agera i miljöer som förändras sekund för sekund. Detta inkluderar ojämna golv, föremål som är felplacerade, oförutsägbar mänsklig beteende och kontextberoende icke-verbala signaler. Resultatet är en daglig konfrontation med brus, tvetydighet och potentiellt misslyckande.

Här börjar den kroppsliga resonemanget — där språk är grundat i rum, tid och konsekvens — att betyda mer än tokenprediktion. Till exempel, om en människa säger “se upp, det är halt”, måste roboten koppla ihop den frasen inte bara till en orddefinition, utan till rumslig medvetenhet, potentiella risker och realtidsjusteringar.

Samtidigt blir multimodalt lärande essentiellt, eftersom ingen enskild indatakanal är tillräckligt tillförlitlig för att fungera ensam. En kamera kan missa en hal yta, men trycksensorer i foten kan upptäcka en plötslig förlust av grepp. Eller, i en annan situation, taligenkänning kan misslyckas i ett bullrigt lager, men visuella signaler eller gester kan fylla i luckan.

Generalisering blir också kritisk. En robot kan inte lita på att se den exakta miljön två gånger. Den måste anpassa sitt beteende när golvet är vått, belysningen förändras eller lådan inte är där den var igår. Detta blir skillnaden mellan framgångsrik exekvering och misslyckande.

Hos Humanoid börjar vi testa tidigt med kommersiella partners. Vi integrerar våra robotar i levande miljöer för att snabbt upptäcka potentiella fel och säkerställa optimal funktion innan distribution. En robot som fungerar bra i simulering eller demo är inte samma sak som en som vinner förtroende under tryck, eftersom det förtroendet byggs på verklig inlärning.

Vi vet att humanoider kommer att vara tillgängliga kommersiellt inom de närmaste två åren — men vi väntar inte. För oss börjar kommersialisering tidigt. Det innebär att bygga långsiktiga partnerskap kring verkliga användningsfall. Genom en serie pilotprogram lär vi inte bara våra partners om tekniken — vi lär oss också tillsammans med dem. Detta gemensamma lärandeprocess hjälper oss också att förbättra kostnadsstrukturer och prestandatillförlitlighet från dag ett — vilket säkerställer den bästa möjliga totala ägandekostnaden (TCO) när systemen skalar.

Varför humanoider är den ultimata testbädden för allmän intelligens

Världen vi har skapat under de senaste hundra åren är anpassad till mänsklig skala. Dörrhandtag, truckar, lager — allt antar vissa dimensioner, rörelseomfång och implicita sociala beteenden. Humanoider måste anpassa sig till den verkligheten eller riskera att vara extremt begränsade i sin funktionalitet.

För att gå uppför trappor, bära ett föremål, tolka en pekgester eller känna igen tveksamhet i en röst, måste en robot förstå kontext långt utöver visuell klassificering eller skriptad rörelseplanering. Den måste härleda avsikt, lära sig en ny uppgift genom att titta på en människa, anpassa den färdigheten till en något annorlunda layout och förbättra sin prestanda över tid. I praktiken utökar detta system vad AI kan göra under verkliga begränsningar.

Hos Humanoid accelererar vi den processen genom teleoperation. I de tidiga utvecklingsstadierna guidar mänskliga operatörer roboten genom nyckeluppgifter. Den här hands-on-datan blir grunden för att träna nya beteenden. Över tid matar dessa demonstrationer in i våra slut-till-slut-modeller, vilket hjälper oss att bygga mot tillförlitlig autonomi.

Från smala system till integrerad intelligens

De flesta AI-system idag excellerar inom smala uppgifter. I isolering fungerar var och en av dem bra. Men humanoider behöver inte fristående specialister. För att integrera framgångsrikt behöver vi system som kan resonera över modaliteter och tids skalor.

En humanoid kan få en relativt vag instruktion — “Gå och hämta den gula lådan från lagerrummet tvärs över korridoren” — och måste dekodera den till en sekvens av underuppgifter: lokalisera talaren, navigera en korridor, identifiera rätt låda, justera greppstyrka, undvika kollisioner och naturligtvis återvända säkert.

Varje del av den sekvensen involverar ett annat subsystem — syn, lokomotion, språk, manipulation och återkoppling. Och tillförlitligheten hos hela systemet beror på hur väl dessa delar kommunicerar under förändrade förhållanden.

Modulär arkitektur är ett sätt att möta den utmaningen. Detta tillåter oss att iterera på subsystem oberoende medan vi fortfarande uppnår systemomfattande samordning. Dessutom möjliggör det för oss att skala funktioner över flera miljöer utan att behöva bygga om från scratch. Det är så vi flyttar från stängda demoer till prestation i öppna världen.

Insatserna är massiva — och de är globala

Det är lätt att ramla in humanoider som framtida. Men när vi pratar med våra kunder är behovet omedelbart. Många lager, monteringslinjer och andra tidigare livliga arbetsplatser kämpar nu för att hålla personal.

De här arbetskraftsbristerna är demografiska frågor. I Japan är nästan 30% av befolkningen över 65. I Europa kämpar viktiga sektorer — som har en kombinerad lönekostnad på 1,7 biljoner — för att rekrytera yngre arbetare. Detta är inte de typer av roller som de flesta människor vill ha, och alltmer, inte de typer av roller som människor är villiga att göra.

Genom att komma in som hjälpande händer, inte som ersättare, kan humanoider ta på sig fysiskt krävande, upprepande eller farliga uppgifter — flytta lager, lasta pallar, operera maskiner — utan risken för trötthet eller skada. Detta frigör mänskliga arbetare att fokusera på mer komplexa, kreativa eller interpersonella aspekter av jobbet.

Dessutom skapar detta långsiktig ekonomisk motståndskraft. När arbetskraften är volatil eller otillgänglig kan intelligenta maskiner hjälpa till att säkerställa kontinuitet — allt utan att offra säkerhet, kvalitet eller anpassningsförmåga.

En annan aspekt att betona är den regulatoriska ramen. De flesta team — särskilt i lösreglerade jurisdiktioner — väntar med att tänka på det. Vi började där. Europas säkerhets- och datalagar är några av de strängaste i världen, men istället för att behandla dem som hinder, ser vi dem som vår konkurrensfördel. När andra marknader antar strängare regleringar kommer vi att vara redo att möta dem, medan andra företag kan kämpa.

En ny AI-tävling — men inte den du tror

Mycket av diskursen kring AI idag handlar om beräkningskraft, parametrar och träningsdata. Men den verkliga genombrottet kan komma från en annan front: integration i den fysiska världen. Det är där intelligens måste lära sig att utföra, snarare än att bara förutsäga.

I det avseendet handlar tävlingen om det mest kapabla systemet — ett som kan operera i offentliga utrymmen, under säkerhetsbegränsningar och med människor i slingan. Det systemet, förutom att lära sig från data, kommer också — och särskilt — att lära sig från verkligheten och arbeta tillsammans med människor utan att störa flödet.

Därför väntar vi inte tills distributionen börjar. Från början arbetar vi direkt med kommersiella partners för att integrera i verkliga miljöer — vilket säkerställer att systemet förbättras där det betyder mest: i praktiken.

Den typen av inlärning i den verkliga världen är exakt där smala system faller kort. Medan de har tagit oss långt, var de aldrig avsedda för den här typen av komplexitet. Humanoider kräver något annat — samordning, robusthet och, som nämnts, förmågan att lära sig av det oväntade.

Det är den massiva möjligheten framför oss. Inte att automatisera allt, utan att bygga maskiner som kan förstå, navigera och samarbeta med den mänskliga världen.

Artem Sokolov, Founder of Humanoid

Artem Sokolov är grundaren av Humanoid, samt en global investerare och entreprenör. Han tog framgångsrikt över sin familjs företag och växte det till en värdering på 1 miljard dollar. Han grundade sedan Humanoid för att bygga säkra och tillförlitliga humanoida robotar som frigör människor från fysiskt krävande arbete. Idag leder han ett team på över 130 professionella från några av världens ledande techföretag, som bringar världsklassens tekniska djup för att utveckla framtiden för mänsklig-maskinsamverkan.

Unite.AI

Den humanoida eran kommer inte — den är redan här

Hur humanoider för in AI i den verkliga världen

Varför humanoider är den ultimata testbädden för allmän intelligens

Från smala system till integrerad intelligens

Insatserna är massiva — och de är globala

En ny AI-tävling — men inte den du tror

You may like