Connect with us

Innanför den nya robotikracen: Data, modeller och tillverkning

Tankeledare

Innanför den nya robotikracen: Data, modeller och tillverkning

mm

Innovation förekommer sällan i isolering. Mer ofta föds den i samtal mellan ingenjörer, grundare, forskare och investerare som försöker förstå vart tekniken är på väg.

Under ett års tid deltog jag i dussintals konferenser runt om i världen. Affärsresor kan ibland pågå i månader, och möten med partners och kunder äger rum från Asien till Nordamerika. Men en av mina senaste resor till Schweiz visade sig vara särskilt intressant – till stor del på grund av de människor och samtal som ägde rum där.

Zürich visade sig vara en av de platser där framtiden för robotik och Physical AI aktivt diskuteras idag. Och ju djupare dessa samtal går, desto mer uppenbart blir det att den riktiga tävlingen inom robotik utvecklas kring data.

Europas Silicon Valley

Zürich har traditionellt sett associerats med den finansiella sektorn, men under de senaste åren har det alltmer kommit att kallas Europas Silicon Valley. Mycket av denna ryktbarhet är knuten till ETH Zürich, ett av de mest respekterade ingenjörsuniversiteten i Europa. Det lockar till sig forskare, doktorander, entreprenörer och ingenjörer från hela världen. Som ett resultat har en kraftfull teknisk ekosystem formats runt universitetet, där forskning, startups och industriella projekt utvecklas nästan samtidigt.

En av anledningarna till min resa var att få en djupare förståelse för vad Introspector kan erbjuda robotikmarknaden, som har varit i topp sedan början av 2025. Det är en bransch som många startups försöker ta sig in i, medan tekniska genombrott från stora techföretag aktivt omformar den. Ändå, trots all denna momentum, ställer fältet fortfarande fler frågor än det ger svar.

Zürich är också hem för våra partners Lightly, som hjälpte mig att komma i kontakt med kollegor som arbetar i skärningspunkten mellan robotik, datorseende och AI. Det finns ett viktigt aspekt av den lokala tekniska ekosystemet som jag vill betona: människor här är anmärkningsvärt öppna och välkomnande. De är inte rädda för att dela sina idéer och hypoteser, att tala om de utmaningar de försöker lösa, och de experiment de kör. Som ett resultat börjar du förstå marknadens verkliga sammanhang och vart branschen är på väg mycket snabbare.

Förresten, när människor frågar mig hur den europeiska “Silicon Valley” skiljer sig från den amerikanska, är svaret ofta överraskande. I Zürich känns balansen mellan arbete och liv mycket starkare: sport på morgonen, fokuserat arbete under dagen i en lugn men produktiv rytm, och kvällar tillbringade i bergen med familj eller enkelt avslappnande. I San Francisco finns ofta en känsla av att man konstant måste bevisa att man arbetar hårdare än alla andra. I Zürich är takten annorlunda – mer hållbar. Ändå är den tekniska ambitionen här inte lägre.

Bättre data före bättre robotar

En av de viktigaste slutsatserna från denna resa var en ganska enkel iakttagelse: många människor idag vill arbeta inom robotik. Men trots det enorma intresset för branschen, är många team fortfarande i en utforskande fas, försöker förstå vilken roll de kan spela i den nya vågen av robotik och Physical AI, och vilket bidrag de kan ge.

Många samtal konvergerar så småningom till samma ämne: data. Idag saknar branschen data om dexteritetsuppgifter, d.v.s. finmotoriska färdigheter. Inom detta område är robotarnas förmågor fortfarande extremt begränsade. Vad människor gör med sina händer nästan automatiskt – plockar upp ett föremål, vrider det, placerar det försiktigt någonstans, eller utför en liten manipulation – förblir en av de mest utmanande uppgifterna för robotar.

Nyckeln till framsteg här ligger primärt i storskaliga, korrekt insamlade datamängder. Idag talar många om egocentriska datamängder, inspelade från ett förstapersonsperspektiv, där systemet fångar mänskliga handlingar som om det utförde dem själv. Men i praktiken visar det sig att själva begreppet “egocentrisk datamängd” kan betyda mycket olika saker och väcker en mängd tekniska frågor. Var ska kameran placeras? På pannan, på bröstet, eller kanske på ögonhöjd? Vilka sensorer ska åtfölja videoupptagningen? Om vi fångar handrörelser, ska operatörerna använda specialhandskar? Och om så är fallet, ska dessa handskar innehålla taktila sensorer, gyroskoper eller andra rörelseövervakningssystem?

En ännu mer komplex fråga uppstår: hur man korrekt fångar rörelsens djup. Det är viktigt att förstå inte bara handens position i en tvådimensionell plan, utan också hur den rör sig genom tre dimensioner – framåt, bakåt, upp eller ner.

Hittills har branschen inte nått en enhetlig lösning. Därför experimenterar många team idag med olika sensorkonfigurationer, inspelningmetoder och datamängdsformat.

Multimodala system

Så fort samtalet vänder sig till datainsamling för robotik, dyker ett annat ämne snabbt upp – ytterligare sensorer och multimodalitet, som möjliggör insamling av kroppsrörelser, handhandlingar och objektsamspel med större precision. De hjälper också till att minska fel under datamängdsinsamlingen.

När en person spelar in sina handlingar på kamera, finns alltid en risk att en del av materialet blir oanvändbart. Kameran kan skifta lite, inspelningsvinkeln kan vara felaktig, operatören kan oavsiktligt vända sig åt fel håll, eller operatören kan utföra en rörelse för snabbt. Som ett resultat kasseras en betydande del av det inspelade materialet. Ett enkelt exempel: för att få en timme av verkligen användbart video, måste en operatör ofta spela in runt två timmar av råmaterial.

Ytterligare sensorer hjälper till att kompensera för några av dessa problem. Även om kameran skiftar lite, kan sensordata fortfarande göra det möjligt att rekonstruera handens eller kroppens rörelse i rummet. Som ett resultat, istället för två timmar av inspelning, kan det ta ungefär en timme och tjugo minuter att få samma mängd användbar data. Detta ökar avsevärt effektiviteten i datamängdsinsamlingen och minskar kostnaderna för att skapa dem.

Det är därför ingen tillfällighet att många team också noterar ett växande intresse för multimodal dataannotering. Detta har blivit en av de mer synliga trenderna direkt kopplade till utvecklingen av robotik och inkarnerad AI.

Nästa punkt är märkning av sådana datamängder. Vi har stött på liknande frågor på Keymakr när vi arbetar med kunddatamängder för robotikfall: hur ska en sådan annotering se ut i praktiken? Ska den vara skelettliknande? Tvådimensionell eller tredimensionell? Ska element av förstärkt inlärning inkorporeras i pipelinen? Det finns dussintals sådana frågor. Ingenjörerna själva medger att ingen ännu kan säga med säkerhet vilken specifik datakonfiguration som slutligen kommer att leda till ett verkligt tekniskt genombrott.

Dessa bekymmer är förståeliga. Att bygga komplexa datamängder är en dyrt process. Varje misstag i datastrukturen kan kosta tusentals eller till och med miljoner dollar. Det är möjligt att samla in den “fel” datamängden eller spela in den under förhållanden som är svåra att reproducera i den verkliga världen, och därmed undergräva hela projektet. Det är precis därför som alltmer uppmärksamhet ägnas åt både modellerna själva och kvaliteten och arkitekturen på de data som modellerna tränas på.

Vilka slags robotar behöver marknaden?

Klassiska industrirobotar, som har funnits på bilmonteringslinjer i decennier, kräver faktiskt mycket lite datorseende eller komplexa AI-modeller. Deras uppgift är extremt specifik: att utföra strikt upprepad rörelse – vänster, höger, upp, ner – med hög precision och konsekvens. Inom detta område har de länge överträffat människor.

En helt annan kategori är humanoida robotar. Dessa system kräver “hjärnor”: förmågan att navigera i rummet, uppfatta den omgivande miljön, förstå sammanhanget i en situation och kontrollera manipulatorer inte genom förprogrammerade banor, utan genom att anpassa sig till den verkliga världen.

Även med den höga nivån av automatisering på moderna fabriksgolv, utförs fortfarande många uppgifter av människor. Att flytta ett föremål, plocka upp en låda, sortera delar, fästa en komponent eller organisera material – dessa är små handlingar som kräver flexibilitet och koordination. Detta område förblir ett av de svåraste att automatisera, och det är just här som humanoida system kan hitta sin roll.

Många av de team jag talade med använder en liknande affärsmodell. De närmar sig en fabrik och föreslår att lösa ett specifikt produktionsfall. Till exempel kan en arbetare tillbringa hela dagen med att flytta lådor mellan lagerzoner. Ingenjörerna föreslår ett relativt enkelt experiment: utrusta arbetaren med en kamera och en uppsättning sensorer, spela in tusentals timmar av deras handlingar och använda denna data för att träna en modell som kommer att styra en humanoid robot. På detta sätt lär sig roboten att utföra exakt de uppgifter som utförs av den mänskliga arbetaren.

I själva verket köper företaget en humanoid plattform, medan utvecklingsteamet bygger en anpassad modell som replikerar beteendet hos en specifik operatör. Detta är inte en universell intelligens som kan lösa vilken uppgift som helst. Utan snarare en uppsättning färdigheter som tränats för ett specifikt scenario eller en grupp produktionsuppgifter. För många ingenjörer idag verkar denna ansats betydligt mer realistisk. Istället för att försöka skapa en universell robot omedelbart, fokuserar teamen på smala men ekonomiskt livskraftiga automatiseringscenarier.

Den affärsmässiga dimensionen

Om framtiden ligger i anpassade modeller, är det viktigt att förstå att detta, ur ett ekonomiskt perspektiv, är en ganska lång utvecklingsväg.

Varje industri är i princip sin egen värld. Varje produktionsmiljö har sina egna processer, arbetsflöden och undantag. En robot som tränats för att fungera i en bilfabrik kan inte enkelt flyttas till livsmedelsproduktion eller lagerlogistik. I varje fall måste systemet omtränas från scratch.

Detta leder till nästa logiska fråga: vem kommer att vara de första kunderna till sådan teknik?

På detta stadium är de primära antagarna troligen stora företag – de med budgetar och för vilka automatisering kan generera en meningsfull ekonomisk inverkan. Idag kostar en humanoid robot ungefär 60 000–90 000 dollar för maskinvaran ensam. Detta är bara den basala konfigurationen. Utöver detta finns underhållskostnader, batterier, laddningsstationer, infrastruktur och programvara.

Som ett resultat är de företag som är mest kapabla att experimentera med sådana system stora organisationer, biltillverkare, livsmedelskoncerner och stora industriella företag.

Naturligtvis kan även mindre sektorer se några tidiga antagare. Vissa företag kan köpa en eller två robotar för specifika uppgifter. Men i de flesta fall är dessa företag inte redo att investera hundratusentals euro i att samla in och annotera de anpassade datamängder som krävs för att träna system för högt specifika operativa scenarier. För dem förblir mänskligt arbete fortfarande det billigare alternativet.

Det långa spelet i robotikinnovation

Till slut kommer vi till en grundläggande ekonomisk fråga: vad är mer effektivt – en människa eller en robot? Om vi tittar på dagens ekonomi, är svaret uppenbart: mänskligt arbete är billigare, anpassar sig snabbare till nya förhållanden och kräver inte komplex infrastruktur.

Så varför fortsätter branschen att investera i robotik idag? Svaret är till stor del strategiskt.

Många företag förstår att en sorts tävling om teknisk ledarskap pågår. De utvecklar redan lösningar, trots de höga kostnaderna, för att ligga före när ekonomin inom robotik förändras.

Så fort elektronik förbättras, komponentkostnader minskar och beräknings-effektiviteten förbättras, kommer robotik oundvikligen att bli mer överkomlig. Och när det händer, kommer fördelen att tillhöra de företag som redan har byggt modeller, ackumulerat data och etablerat den nödvändiga tekniska infrastrukturen.

Tänk dig till exempel att nya regler införs som tillåter storskalig användning av humanoida robotar i tillverkning. Eller att regeringar börjar subventionera robotiseringen av industrier. I ett sådant scenario kan marknaden växa dramatiskt inom bara några år. Och de som förberedde sig i förväg, de med existerande modeller, forskning, datamängder och en redo teknisk stack, kommer att vara de som gynnas mest.

Därför fortsätter utvecklingen även nu, trots att affärsekonomi kanske inte ser idealisk ut. För många företag är det en investering i framtiden – i ögonblicket när tekniker blir mer tillgängliga och efterfrågan ökar skarpt.

Och i denna tävling, som i många tekniska revolutioner, visar sig en faktor ofta vara avgörande: vem började tidigare. I detta avseende liknar dagens robotik starkt de tidiga stadierna av artificiell intelligens. Då fanns det också fler frågor än svar. Men det var de team som började arbeta med data och infrastruktur tidigare än andra som till slut formade riktningen för hela branschen.

Michael Abramov är grundare och VD för Introspector, och bringar över 15+ års erfarenhet av programvaruteknik och datorsyn AI-system till utvecklingen av företagsklassade märkningsverktyg.

Michael började sin karriär som programvarutekniker och R&D-chef, och byggde skalbara datasystem och ledde tvärfunktionella ingenjörsteam. Fram till 2025 har han varit VD för Keymakr, ett företag som erbjuder datamärkningstjänster, där han banade väg för mänskliga-i-loopen-arbetsflöden, avancerade QA-system och skräddarsydda verktyg för att stödja storskaliga datorsyn och autonomidatatabehov.

Han har en B.Sc. i datavetenskap och en bakgrund inom teknik och konstnärliga ämnen, vilket ger honom en tvärvetenskaplig synvinkel på att lösa svåra problem. Michael verkar i skärningspunkten mellan teknisk innovation, strategisk produktledning och verklig påverkan, och driver framåt den nästa fronten för autonoma system och intelligent automation.