Tankeledere
Den sanne kostnaden av å trene roboter

I den første delen, diskuterte vi hvordan roboter utvikler seg fra grunnleggende mekanikk til å forstå omgivelsene sine. Ved “siste mile”-stadiet – når roboter gjennomgår ettertrening for spesifikke, tilpassede oppgaver – oppstår en uventet hindring. Den er knyttet til data: innhenting, organisering og skaleringsmuligheter i virkelige forhold.
Det er nettopp på dette stadiet at gapet mellom konsept og implementering blir mest tydelig. Hva er de viktigste flaskenakken, og hvordan kan de overvinnes med minimal friksjon?
Hvorfor tusenvis av timer med data blir til år med arbeid
La oss forestille oss at vi allerede har en trent robot som har gjennomgått fortrening. Den kan navigere i omgivelsene, bevege seg, unngå hindringer og interagere med objekter. Det er som et “ti år gammelt barn” som generelt er i stand til å handle uavhengig. Neste steg er å lære det å utføre spesifikke handlinger under spesifikke forhold, for eksempel å montere glasspaneler og tette striper på en bilproduksjonslinje.
Ved første øyekast ser oppgaven enklere ut. Den innebærer å mestre en enkelt scenario, og volumet av data som kreves er betydelig mindre enn under fortrening. Mens grunnleggende trening kan kreve hundredtusener av timer, kan ettertrening kanskje bare ta noen tusen timer. Men disse tallene er misvisende.
Når de oversettes til virkelig tid, avslører prosessen sin sanne kompleksitet. Under en standard arbeidstid, arbeider en person omtrent 160 timer per måned. Men dette betyr ikke at all denne tiden kan brukes til opptak.
I praksis oppstår konstante forstyrrelser: batterier tar slutt, kameraer skifter, sensorer svikter. Jo mer komplisert utstyret er, jo høyere er sannsynligheten for problemer. Selv et enkelt feil som sensorer på en hanske som slutter å fungere, kan stoppe prosessen og føre til tapt tid.
Som resultat er den faktiske datainnsamlingshastigheten 2-3 ganger lavere. En time med høykvalitetsopptak kan kreve opptil tre timer med virkelig arbeid. Dette endrer radikalt beregningen: 5 000 timer med data oversettes til omtrent 15 000 timer med arbeid.
Lag på lag av kompleksitet
Under fortrening kan det være nok å gi en person et kamera og be dem om å opptage hverdagsaktiviteter. Men på dette stadiet kreves tilgang til en spesifikk omgivelse, som en fabrikk, en byggeplass eller en spesialisert produksjonsanlegg.
Dette introduserer umiddelbart praktiske begrensninger. For eksempel på en byggeplass, må arbeidere bruke sikkerhets-hjelmer, noe som betyr at spesialutstyr må utvikles: hjelmer med integrerte kameraer som er motstandsdyktige mot støv, fuktighet og påvirkning.
Deretter kommer tilgangen til selve området. Avtaler må inngås med eierne, tillatelser må innhentes, og betingelser må forhandles. Dette involverer nesten alltid ekstra kostnader: selskaper forventer kompensasjon, og arbeidere forventer å bli betalt for deltakelse.
Forsikring og sikkerhetsstandarder blir også kritiske bekymringer. Hvis utstyret ikke møter de nødvendige standardene, kan forsikringen bli ugyldig, og hele prosessen må omstruktureres.
Selv på daglig basis, består utfordringene. Kameraer må slås på, overvåkes og vedlikeholdes. Arbeidere opererer i hansker og harde forhold. Utstyret blir skittent, slites ut og går i stykker. Et kamera kan slå av etter noen minutter, og personen kan ikke engang merke det.
Dette skaper behov for deltakere å trene seg selv – de må forstå hvordan de bruker utstyret. I tillegg kreves kontinuerlig overvåking – noen må sikre at opptak pågår og at enhetene fungerer korrekt.
Fra råvideo til treningdata
Etter opptak, begynner neste fase: datainnsamling, opplasting, strukturering, validering av kvalitet og merking.
All rådata består av video- og sensorsignaler. For å omdanne det til treningmateriale, må det struktureres: objekter må identifiseres, handlinger må fanges, og tilstander, bevegelser og interaksjoner med omgivelsene må beskrives. Dette er der annotering kommer inn i bildet. En logisk spørsmål oppstår – hva er gullstandarden for en slik annoteringsprosess?
I noen tilfeller er enkle avgrensningsskjermer nok til å identifisere objekter i en ramme. I andre tilfeller kreves tidsannotering for å beskrive sekvenser av handlinger over tid. I visse scenarioer brukes nøkkel punkter og skjelettmodeller til å fange kroppbevegelse. I mer komplekse tilfeller brukes 3D-nett eller håndpose-sporing til å representere interaksjonsmekanikken nøyaktig. Ekstra sensorer, som akselerometre, integreres ofte for å fange bevegelsesdynamikk og påvirkning.
Slike prosjekter krever ofte også å skalerer teamet. Merking er en stor og kompleks oppgave i seg selv, som krever tid, ekspertise og betydelige menneskelige ressurser. Dette er der data-løsningstilbydere med egen annoteringsteam kommer inn i bildet. Slike som Keymakr, som har vist seg å være særlig effektive takket være deres evne til å skalerer team til å matche hvilket som helst data-volum, fra en enkelt spesialist til hundredvis av annotatorer.
Det finnes ingen riktig tilnærming til trening ennå
Bransjen er fortsatt i en utforskende fase, da det ikke finnes noen enighet om hvilken datakombinasjon gir de beste resultatene. Mange tilnærminger blir validerert empirisk fordi de fungerer i spesifikke eksperimenter. Som resultat fortsetter forskjellige team å stole på forskjellige teknologier, formet av deres egen erfaring, oppgaver og begrensninger.
På både akademisk og anvendt nivå, fører dette til fragmentering: laboratorier og selskaper beveger seg i forskjellige retninger. Situasjonen minner om de tidlige dagene med selvstyrt kjøring, da Tesla satset på en visjon-basert tilnærming uten LiDAR, mens de fleste andre spillere valgte LiDAR som en kjerne-sensor.
I dag tenderer LiDAR-baserte systemer å vise mer stabile resultater, men Teslas tilnærming fortsetter å utvikle seg. Forskjellen er at i selvstyrt kjøring, har markedet i stor grad modnet: stabile arkitekturer har oppstått, begrensninger er godt forstått, og betydelig ekspertise har blitt akkumulert.
I motsetning til dette, for Fysisk AI og lignende modell-trening, har denne typen modenhet ennå ikke blitt nådd. Markedet er fortsatt under utvikling, standarder mangler, og mye av fremgangen drives av eksperimentering. Nye metoder for modell-trening, forbedring av effektivitet og tilpasning til virkelige scenarioer fortsetter å oppstå, noe som antyder at de viktigste gjennombruddene i dette feltet fortsatt ligger foran.
Mennesket som en forsterkningssystem
Merking eksisterer ikke i isolasjon, heller ikke for modellen alene. Den tjener som et verktøy for ingeniøren som bygger modellen. Gjennom den, formaliserer de virkeligheten, identifiserer nøkkelparametere og definerer systemets atferdsregler.
Ingeniørens oppgave er å lære systemet å utføre handlinger korrekt i virkelige forhold. For eksempel kan et grunnleggende scenario bestå av fire handlinger: plukke opp et glass, slå på kranen, fylle det og slå av kranen. Men i virkeligheten oppstår en avvik – glasset overflyter.
I det øyeblikket forventes modellen å fullføre scenariet og utføre ekstra handlinger: stoppe vannstrømmen, justere vannnivået og forhindre spilling. Dette er atferdslogikk basert på kontekstuell forståelse.
Ingeniøren følger en syklus: annotere data, trene modellen, teste den. Hvis systemet fungerer, blir hypotesen bekreftet. Hvis ikke, begynner analysen.
På et visst tidspunkt kan det bli klart at modellen mangler en viktig parameter, som glassets fyllingsnivå. Tidligere kan dataene ha inkludert annoteringer for objekter (glass, kran, håndtak) og handlinger (åpning, fylling, lukking), men manglet annoteringer for tilstand, som graden av fullhet.
En ny lag blir da lagt til prosessen: å annotere fyllingsnivået, etterfulgt av formalisering, for eksempel å definere alt over 85% som en kritisk tilstand.
Dette fører til den neste iterasjonen av trening. Du kan ha hundredvis av slike iterasjoner.
Ingen antar at systemet vil fungere korrekt med en gang. Tværtimot er prosessen bygget rundt suksessive approksimasjoner: først lages en baseline-versjon; deretter testes den i virkelige eller nesten-virkelige forhold; hullene identifiseres; og systemet forbedres. Dette er noe jeg ofte diskuterer med kunder på Introspector, med hvem vi går gjennom hele den fysiske AI-reisen sammen.
På et visst tidspunkt oppnås det ønskede resultatet. Men verdien ligger ikke bare i at systemet begynner å fungere, men i den akkumulerte erfaringen som gjør det mulig å gjenta resultatet mer forutsigbart.
Økonomien alle glemmer
Over det siste året eller så, har jeg lagt merke til at den største feilen selskaper gjør når de arbeider med egosentrisk data, har lite å gjøre med teknologi.
Kjerneproblemet er faktisk i å undervurdere prosjekteøkonomien.
På ide-fasen står teknologien i sentrum – hva modeller å bruke, hvordan å trene dem og hvilke tilnærminger å anvende. Du studerer, forsker, diskuterer arkitekturer og tester hypoteser. Dette er naturlig: teknologien føles som den mest tangibile og åpenbare delen av problemet.
Men langt mindre ofte på dette stadiet stiller teamene et direkte og praktisk spørsmål: hvor mye vil det koste?
Når et prosjekt går fra teori til implementering, blir det klart at bak hver modell ligger titusener av timer med data. Å innsamle disse dataene krever tid, tilgang til virkelige omgivelser og involvering av spesialister. Merking legger til en ny lag av kompleksitet og kostnad. Som resultat er de endelige tallene ofte mange ganger høyere enn forventet.
Dette betyr ikke at slike prosjekter ikke bør forfølges. Tværtimot er de det som driver bransjen fremover.
Men hva som betyr noe, er å forstå skalaen av utfordringen fra begynnelsen av. Å erkjenne at i modell-trening, bak hver fantastisk algoritme ligger kompleks, ressurs-intensiv data-arbeid.
Selv sterke ideer mislykkes i å nå full implementering når data-kostnadene begynner å stige langt over syv sifre.
Og kanskje den viktigste endringen som skjer i robotikken i dag, er knyttet til denne erkjennelsen. Fremtiden for disse systemene vil bli definert av hvor “intelligente” de er og hvor effektivt og nøyaktig hele data-pipeline er bygget – fra data-innsamling til endelig tolkning.












