Tankeledare

Vi lÀrde robotar att röra sig. Nu lÀr vi dem att leva

mm

Modern robotteknik har nått en punkt där rörelse inte längre är den största utmaningen – maskiner kan redan navigera, gripa och operera i rummet med imponerande precision. Men att göra det möjligt för dem att verkligen “leva” och fungera i den riktiga världen förblir ett olöst problem.

I denna process spelar det som kan kallas “ryggraden” en nyckelroll: systemet som ansvarar för grundläggande reaktioner, beteende och interaktion med miljön.

När man tittar på robotarnas utveckling genom denna lins blir det tydligt att denna sekvens av stadier – där systemet lär sig något nytt vid varje steg, från enkel rörelse till komplexa, kontextmedvetna handlingar – liknar den mänskliga utvecklingen.

Och det är just inom denna utveckling – från “tom” hårdvara till meningsfullt beteende – som den stora skiftet i fysisk AI sker idag. Det är intressant att lära sig mer om detta.

Robotikens grundval: ett sällan diskuterat stadium

Vad är en robot i praktiska termer? Det är en fysisk enhet som initialt skapats som en universell plattform. I själva verket är det en “tom” som sedan måste anpassas till specifika uppgifter, tränas för att operera i en given miljö och läras att utföra de krävda handlingarna.

Om vi går bortom vardagliga scenarier och överväger mer realistiska nära-framtid-scenarier, blir det tydligt att den fullständiga antagandet av robotar främst kommer att ske i industriella och potentiellt farliga miljöer. Detta innebär i sin tur betydligt högre krav på deras beteende, robusthet och utbildningskvalitet.

Processen börjar med det mest grundläggande steget – att bygga enheten själv. En robot monteras från flera komponenter, inklusive aktuatorer, motorer, sensorer, kameror, LiDARs. Den kan vara humanoid, hjulburen, tvåbent eller fyrabent – formfaktorn är sekundär. Vad som är viktigt är att vi på detta stadium slutar med en fungerande men fortfarande “tom” enhet.

Nästa stadium är att installera en basmodell som fungerar som grunden för dess beteende. I en bred bemärkelse är “modellen” den hela funktionella kontrollskiktet. Det är ansvarigt för kärnförmågor: att upprätthålla balans, stå och röra sig, navigera från punkt A till punkt B, undvika hinder, inte skada miljön och säkert interagera med människor.

Detta är där förstärkningsinlärning kommer in i bilden. I sådana system körs miljarder simuleringar. Vi ser ofta videor av robotar som “lär” i komplexa miljöer: de flesta av dem faller, förlorar balans eller misslyckas med att slutföra uppgiften. Men de som lyckas stanna upprätta och fortsätta röra sig är de som utvecklas.

Detta är kärnan i förstärkningsinlärning: att välja framgångsrikt beteende. Algoritmerna för de som “överlever” blir grunden för nästa iterationer. Som ett resultat, efter en enorm mängd körningar, uppstår en modell som kan med säkerhet hantera hinder. Denna algoritm överförs sedan till den fysiska enheten.

Det är ett grundat men kritiskt viktigt stadium – ofta med lite eller ingen datorseende, som inte krävs vid denna punkt. Vad vi har att göra med här är grundläggande fysik och mekanik som måste införlivas i systemet från början.

Hur robotar börjar “känna” världen

Så, vi har redan “hårdvaran” – en robot med en basmodell installerad: den kan stå, gå och upprätthålla balans. Men räcker detta för verkliga uppgifter, till exempel i industriella miljöer? Tydligtvis inte.

Nästa nivå börjar här. Vi integrerar sensorer och tränar modellen att agera baserat på sensoriska indata. En ny nivå av kärnförmågor uppstår – redan betydligt mer komplexa än enkel rörelse.

En analogi med mänsklig utveckling är användbar här. Vid det första stadiet förde vi systemet till ungefär samma nivå som ett ettårigt barn: det kan stå, ta sina första steg och upprätthålla balans utan att falla. Nästa steg är mer i linje med en åttaårigs nivå.

Vid denna ålder använder barnet aktivt sina “sensorer”: de kan uppfatta risk och utvärdera konsekvenserna av sina handlingar. De förstår att inte röra vid något hett eller lägga något mycket kallt i munnen. De kan klättra upp på ett bord, cykla och interagera med föremål. De är kapabla att gripa, bära och manipulera föremål och utföra grundläggande självvårdsåtgärder.

Vi kallar detta stadium förträning. Och vid denna punkt räcker simuleringar ensamma inte längre.

Ja, vissa scenarier kan fortfarande modelleras effektivt: hur man plockar upp ett glas, eller byter ut en batteri, till exempel, ta bort en komponent, placera den på laddning, ta en annan och installera den tillbaka.

Men övergripande skiftar balansen: runt 80% av utbildningen kan fortfarande ske i simulering, medan cirka 20% av data måste komma från den riktiga världen. Och det är här vi börjar diskutera egocentriska data.

Egocentriska data som grund för miljöförståelse

Idag samlas egocentriska data in i stor skala över hela världen – eftersom utan dem är det omöjligt att gå från grundläggande mekanik till meningsfull interaktion med den riktiga världen. En kollega till mig, som driver ett nätverk av bilverkstäder, har anställda som använder huvudburna kameror för att spela in hela bilreparationsprocessen. En byggnadsägare i New York City har infört en liknande approach: städpersonalen bär pannkameror som fångar hur de städar utrymmen och upprätthåller hygieniska områden.

Med tiden blir dessa inspelningar en fristående produkt – de paketeras och säljs. Deras nyckelvärde ligger i deras lämplighet för förträningsstadiet, vilket hjälper till att bygga en grundläggande förståelse av miljöer och sekvenser av handlingar.

Till exempel fanns en sådan tjänst på Keymakr, där teamet oberoende skapade hela samlingar av egocentriska data från enkla scenarier som att tvätta disk till mer komplexa.

Varför är detta så viktigt? Eftersom sådana data tillhandahåller något som ren simulering inte kan – mångfalden av verkliga miljöer. Kontor, bilverkstäder, byggarbetsplatser, restauranger och hotell – var och en av dessa lägger till sin egen kontext, scenarier och nyanser. Tillsammans bildar de en datamängd som tillåter ett system att inte bara “se”, utan att gradvis börja förstå dynamiken i den verkliga världen.

Detta stadium är inte längre att lära en robot att perfekt utföra en specifik handling. Vad som är viktigare är att göra det möjligt för den att orientera sig i sin omgivning först.

Idag fokuserar nästan alla företag som arbetar med robotik – från Tesla till Unitree Robotics och Figure AI – på just detta stadium. Deras mål är att bygga en basmodell vars förmågor först liknar de hos ett “åttaårigt barn”, och sedan fortsätta mot en “tolvåring”. Detta är också vad vi fokuserar på på Introspector – att förbereda data som krävs för förträning, den mest kritiska fasen i “växandet” av modern robotik.

Den sista milen av utbildning: där universalitet slutar och specialisering börjar

Låt oss föreställa oss att en robot redan har slutfört förträning och tillverkats från början med en grundläggande förståelse av världen och en färdighetsnivå som är jämförbar med en tonårings. Men inte ens detta räcker för verkliga affärsfall. Företag behöver inte bara en “allmän” robot – de behöver en specialist.

Tag till exempel bilproduktion. Vissa uppgifter utförs fortfarande av människor eftersom de kräver känslighet, precision och kontinuerlig visuell kontroll. Traditionell automation kämpar här. Industriella manipulatorer excellerar i upprepad, styv uppgift – “plocka, flytta, placera”. Men uppgifter som kräver anpassningsförmåga, tryckkänslighet och realtidsjusteringar förblir i den mänskliga domänen.

Detta är där en ny efterfrågan uppstår: att utbilda en robot att utföra en specifik operation exakt som en skicklig arbetare gör på en produktionslinje. Med andra ord, efter basutbildning kommer nästa nivå: utbildning för en specifik profession och scenario.

Vid denna punkt uppstår en praktisk fråga: vad krävs egentligen för denna nivå av utbildning? Om vi vill att en robot ska replikera mänskligt prestanda, måste vi fånga den mänskliga beteendet så exakt som möjligt. Till exempel skulle specialisten på fabriksgolvet behöva bära en kamera och, under en längre period, månader eller till och med ett år, spela in hur de utför uppgiften.

Vad det kräver för att robotar ska “leva” i den mänskliga världen

En kamera ensam räcker inte. Det är nödvändigt att fånga inte bara den visuella perspektiven utan också fysiken i rörelsen. Detta görs med hjälp av specialiserade handskar med taktila sensorer som mäter tryck, applicerad kraft och arten av interaktion med föremål. Detta är särskilt viktigt eftersom föremålen själva kan variera betydligt. Till exempel kan tätningsskivor skilja sig i styvhet beroende på bilmodell, vilket direkt påverkar hur uppgiften utförs.

Nästa steg är kinematisk spårning. Markörer – visuella eller sensorbaserade – placeras på handleder, armbågar och ibland axlar. Dessa kan inkludera, till exempel, armband med identifierbara markörer (liknande QR-koder) som tillåter systemet att spåra handpositionen i rummet från video. Ytterligare sensorer, som gyroskop, används för att fånga led-rörelser.

Det slutliga målet är att fullständigt rekonstruera mekaniken i rörelsen: hur axeln rör sig, hur armbågen böjer sig, hur handleden roterar. Allt detta blir avgörande för nästa stadium – efterutbildning.

Om, under förträning, vi kunde fortfarande delvis lita på simulering, fungerar det inte längre på detta stadium. Denna “sista mil” är nästan omöjlig att modellera exakt. Man kan inte fullständigt simulera, till exempel, hur en kock rullar ut deg – den applicerade kraften, hur trycket fördelas, hur materialet känns.

Det är därför, under efterutbildning, nästan all data måste komma från den verkliga världen. Och det är här det blir tydligt: den största utmaningen skiftar till den praktiska domänen – hur man får sådan data i verkligheten. Insamling av egocentriska data på denna nivå är en komplex, flerstegsprocess som involverar tillgång till miljöer, specialiserad utrustning, deltagande av skickliga arbetare och efterföljande dataförberedelser.

Bortom teori, detta är där robotar verkligen “kommer till liv” – efter att vi har lyckats organisera denna process, övervinna begränsningar som team står inför över hela branschen och annotera sådana datamängder i stor skala. Detta kommer att behandlas i nästa del, där vi kommer att ta en närmare titt på alla utmaningar som uppstår under dess märkning och förberedelser.

Michael Abramov Àr grundare och VD för Introspector, med över 15 Ärs erfarenhet av programvaruteknik och datorseende AI-system för att bygga företagsklassade mÀrkningsverktyg.

Michael började sin karriÀr som programvarutekniker och R&D-chef, byggde skalbara datasystem och ledde tvÀrfunktionella ingenjörsteam. Fram till 2025 har han varit VD för Keymakr, ett datamÀrkningsföretag, dÀr han banade vÀg för mÀnskliga-i-loopen-arbetsflöden, avancerade QA-system och specialanpassade verktyg för att stödja storskaliga datorseende- och autonomidatabehov.

Han har en kandidatexamen i datavetenskap och en bakgrund inom teknik och kreativa konstarter, vilket ger honom en tvÀrvetenskaplig synvinkel för att lösa svÄra problem. Michael verkar i skÀrningspunkten mellan teknisk innovation, strategisk produktledning och verklig pÄverkan, och driver framÄt den nÀsta fronten för autonoma system och intelligent automatisering.