Tankeledere
Den sanne kostnaden av å trene roboter

I den første delen diskuterte vi hvordan roboter utvikler seg fra grunnleggende mekanikk til å forstå omgivelsene sine. Ved “siste mile”-stadiet – når roboter gjennomgår ettertrening for spesifikke, tilpassede oppgaver – oppstår det en uventet hindring. Den er knyttet til data: innhenting, organisering og skaling i virkelige forhold.
Dette er nettopp stadiet hvor gapet mellom konsept og implementering blir mest tydelig. Hva er de viktigste flasklenekkene, og hvordan kan de overvindes med minimal friksjon?
Hvorfor tusenvis av timer med data blir til år med arbeid
La oss forestille oss at vi allerede har en trent robot som har gjennomgått fortrening. Den kan navigere i omgivelsene, bevege seg, unngå hindringer og interagere med objekter. Det er som et “ti år gammelt barn” som generelt sett er i stand til å handle uavhengig. Neste skritt er å lære den å utføre spesifikke handlinger under spesifikke betingelser, for eksempel å montere glasspaneler og tætningslister på en bilproduksjonslinje.
Et første blikk kan gjøre oppgaven enklere. Den innebærer å mestre en enkelt scenario, og volumet av data som kreves er betydelig mindre enn under fortrening. Mens grunnleggende trening kan kreve hundredtusener av timer, kan ettertrening kanskje bare ta noen tusen timer. Men disse tallene er misvisende.
Når de oversettes til virkelig tid, avslører prosessen sin sanne kompleksitet. Under en standard arbeidstid arbeider en person omtrent 160 timer per måned. Imidlertid betyr dette ikke at all denne tiden kan brukes til opptak.
I praksis oppstår konstante forstyrrelser: batterier går tom, kameraer skifter, sensorer feiler. Jo mer komplisert utstyret er, jo høyere er sannsynligheten for problemer. Selv et enkelt feil som sensorer på en hanske som slutter å fungere kan stoppe prosessen og føre til tapt tid.
Som resultat er den faktiske hastigheten for datainnsamling 2-3 ganger lavere. En time med høykvalitetsopptak kan kreve opptil tre timer med faktisk arbeid. Dette endrer radikalt beregningen: 5 000 timer med data oversettes til omtrent 15 000 timer med arbeid.
Lag på lag av kompleksitet
Under fortrening kan det være nok å gi en person et kamera og be dem om å opptage hverdagsaktiviteter. På dette stadiet kreves imidlertid tilgang til en spesifikk miljø, som en fabrikk, en byggeplass eller en spesialisert produksjonsanlegg.
Dette introduserer umiddelbart praktiske begrensninger. For eksempel på en byggeplass må arbeidere bære sikkerhets-hjelmer, noe som betyr at spesialutstyr må utvikles: hjelmer med integrerte kameraer som er motstandsdyktige mot støv, fuktighet og påvirkning.
Så kommer tilgangen til selve stedet. Avtaler må inngås med stedeier, tillatelser må innhentes, og betingelser må forhandles. Dette involverer nesten alltid ekstra kostnader: selskaper forventer kompensasjon, og arbeidere forventer å bli betalt for deltakelse.
Forsikring og sikkerhets-etterlevelse blir også kritiske bekymringer. Hvis utstyret ikke møter de nødvendige standardene, kan forsikringen bli ugyldig, og hele prosessen må omstruktureres.
Even ved daglige operasjoner består utfordringene. Kameraer må aktiveres, overvåkes og vedlikeholdes. Arbeidere opererer i hansker og harde forhold. Utstyret blir skitent, slites ut og går i stykker. Et kamera kan slå av etter noen minutter, og personen kan ikke engang merke det.
Dette skaper behov for deltakere å trene seg selv – de må forstå hvordan de skal bruke utstyret. I tillegg kreves kontinuerlig overvåking – noen må sikre at opptak pågår og at enhetene fungerer korrekt.
Fra råvideo til treningdata
Etter opptak begynner neste fase: datainnsamling, opplasting, strukturering, validering av kvalitet og annotering.
Noe rådata består av video og sensorsignaler. For å omdanne det til treningmateriale må det struktureres: objekter må identifiseres, handlinger må fanges, og tilstander, bevegelser og interaksjoner med miljøet må beskrives. Dette er der annotering kommer inn i bildet. En logisk spørsmål oppstår – hva er gullstandarden for en slik annoteringsprosess?
I noen tilfeller er enkle avgrensninger nok til å identifisere objekter i en ramme. I andre tilfeller kreves tidsmessig annotering for å beskrive handlinger over tid. I visse scenarioer brukes nøkkel-punkter og skjelettmodeller for å fange kroppbevegelse. I mer komplekse tilfeller brukes 3D-mesh eller hånd-pose-sporing for å nøyaktig representere interaksjonsmekanikken. Ekstra sensorer, som akselerometre, integreres ofte for å fange bevegelsesdynamikk og påvirkning.
Prosjekter som disse krever ofte å skalerer teamet. Annotering er en stor og kompleks oppgave i seg selv, som krever tid, ekspertise og betydelige menneskelige ressurser. Dette er der data-løsningstilbydere med interne annoteringsteam kommer inn i bildet. Slike som Keymakr, som har vist seg å være særlig effektive takket være deres evne til å skalerer team til å matche enhver data-volum, fra en enkelt spesialist til hundredvis av annotatorer.
Det finnes ingen riktig tilnærming til trening enda
Industrien er fortsatt i en utforskende fase, da det ikke finnes enighet om hvilken datakombinasjon gir de beste resultater. Mange tilnærminger er validert empirisk fordi de fungerer i spesifikke eksperimenter. Som resultat fortsetter ulike team å stole på ulike teknologier, formet av deres egen erfaring, oppgaver og begrensninger.
På både akademisk og anvendt nivå fører dette til fragmentering: laboratorier og selskaper beveger seg i ulike retninger. Situasjonen minner om de tidlige dagene med autonom kjøring, da Tesla satset på en visuell tilnærming uten LiDAR, mens de fleste andre spillere valgte LiDAR som en kjerne-sensor.
I dag tenderer LiDAR-baserte systemer å vise mer stabile resultater, mens Teslas tilnærming fortsatt utvikler seg. Forskjellen er at i autonom kjøring har markedet i stor grad modnet: stabile arkitekturer har oppstått, begrensninger er godt forstått, og betydelig ekspertise har blitt akkumulert.
I motsetning til dette har ikke dette nivået av modning blitt nådd for Fysisk AI og lignende modell-trening. Markedet er fortsatt under utvikling, standarder mangler, og mye av fremgangen drives av eksperimentering. Nye metoder for modell-trening, effisiens-forbedring og tilpasning til virkelige scenarioer fortsetter å oppstå, noe som antyder at de viktigste gjennombruddene i dette feltet fortsatt ligger foran.
Mennesket som en forsterkningssystem
Annotering eksisterer ikke i isolasjon, heller ikke for modellen alene. Den tjener som et verktøy for ingeniøren som bygger modellen. Gjennom den formaliserer de virkeligheten, identifiserer nøkkelparametere og definerer systemets atferdsmessige regler.
Ingeniørens oppgave er å lære systemet å utføre handlinger korrekt i virkelige forhold. For eksempel kan et grunnleggende scenario bestå av fire handlinger: plukke opp et glass, slå på kranen, fylle det og slå av kranen. Men i virkeligheten skjer en avvik – glasset overflyter.
På det øyeblikket forventes modellen å fullføre scenariot og utføre ekstra handlinger: stoppe vannstrømmen, justere vannnivået og forhindre spilling. Dette er atferdsmessig logikk basert på kontekstuell forståelse.
Ingeniøren følger en syklus: annotere data, trene modellen, teste den. Hvis systemet fungerer, er hypotesen bekreftet. Hvis ikke, begynner analysen.
På et visst tidspunkt kan det bli klart at modellen mangler en viktig parameter, som glassets fyllingsnivå. Tidligere kan dataene ha inkludert annoteringer for objekter (glass, kran, håndtak) og handlinger (åpning, fylling, lukking), men manglet annoteringer for tilstand, som fyllingsgrad.
En ny lag blir da lagt til prosessen: annotere fyllingsnivået, etterfulgt av formalisering, for eksempel å definere alt over 85% som en kritisk tilstand.
Dette fører til den neste iterasjonen av trening. Du kan ha hundredvis av slike iterasjoner.
Ingen antar at systemet vil fungere korrekt med en gang. Tværtimot er prosessen bygget opp rundt suksessive approksimasjoner: først skapes en baseline-versjon; deretter testes den i virkelige eller nesten-virkelige forhold; hullene identifiseres; og systemet refines. Dette er noe jeg ofte diskuterer med kunder på Introspector, med hvem vi går gjennom hele Fysisk AI-reisen sammen.
På et visst tidspunkt oppnås det ønskede resultatet. Men verdien ligger ikke bare i at systemet begynner å fungere, men i den akkumulerte erfaringen som tillater dette resultatet å bli reproduktivt mer forutsigbart.
Økonomien alle glemmer
Over det siste året eller så har jeg lagt merke til at den største feilen selskaper gjør når de arbeider med egosentrisk data, har lite å gjøre med teknologi.
Hovedproblemet er faktisk i å undervurdere prosjektekonomien.
Ved ide-fasen står teknologi i fokus – hva modeller å bruke, hvordan å trene dem og hvilke tilnærminger å bruke. Du studerer, forsker, diskuterer arkitekturer og tester hypoteser. Dette er naturlig: teknologi føles som den mest tangibile og åpenbare delen av problemet.
Men langt mindre ofte stiller teamene et direkte og praktisk spørsmål på dette stadiet: hvor mye vil det koste?
Når et prosjekt går fra teori til implementering, blir det klart at bak hver modell ligger titusener av timer med data. Å innsamle disse dataene krever tid, tilgang til virkelige miljøer og deltakelse fra spesialister. Annotering legger til en ny lag av kompleksitet og kostnad. Som resultat er de endelige tallene ofte mange størrelsesordener høyere enn forventet.
Dette betyr ikke at slike prosjekter ikke bør forfølges. Tværtimot er de det som driver industrien fremover.
Men hva som betyr noe, er å forstå skalaen av utfordringen fra begynnelsen av. Å erkjenne at i modell-trening, bak hver fantastisk algoritme, ligger kompleks, ressurs-intensiv data-arbeid.
Even sterke ideer mislykkes i å nå full implementering når data-kostnadene begynner å stige langt over syv sifre.
Og kanskje den viktigste skiftningen som skjer i robotikk i dag, er knyttet til denne erkjennelsen. Fremtiden for disse systemene vil bli definert av hvor “intelligente” de er, og hvor effektivt og nøyaktig hele data-pipeline er bygget – fra data-innsamling til sluttolkning.












