Ajatusjohtajat
Oikeat kustannukset robottien kouluttamisessa

Ensimmäisessä osassa keskustelimme siitä, miten robotit kehittyvät perusmekaniikasta ympäristönsä ymmärtämiseen. “Viimeisen mailin” vaiheessa – kun robotit käyvät koulutuksen jälkeen tiettyjä, mukautettuja tehtäviä varten – odottamaton este ilmenee. Se liittyy tietoihin: niiden keräämiseen, järjestämiseen ja skaalaamiseen todellisissa olosuhteissa.
Täsmälleen tässä vaiheessa kuilu konseptin ja toteutuksen välillä tulee selvimmäksi. Mitkä ovat avainpullonkaulat, ja miten niitä voidaan voittaa minimoiden kitkaa?
Miksi tuhannet tuntia dataa muuttuvat vuosiksi työtä
Kuvitellaan, että meillä on jo koulutettu robotti, joka on käynyt esikoulutuksen. Se pystyy navigoimaan ympäristössään, liikkumaan, välttämään esteitä ja vuorovaikuttamaan esineiden kanssa. Se on kuin “kymmenenvuotias lapsi”, joka on yleisesti ottaen kykenevä toimimaan itsenäisesti. Seuraava askel on opettaa sille tiettyjä toimintoja tiettyjen olosuhteiden mukaan, esimerkiksi asentamaan lasilevyjä ja tiivisteitä autonvalmistuslinjalle.
Aluksi tehtävä näyttää yksinkertaisemmalta. Se vaatii yhden skenaarion hallinnan, ja vaadittavan datan määrä on merkittävästi pienempi kuin esikoulutuksessa. Peruskoulutuksessa voi vaatia satoja tuhansia tunteja, mutta jälkikoulutuksessa voi riittää vain tuhannet tunnit. Mutta nämä luvut ovat harhaanjohtavia.
Kun ne käännetään todelliseksi ajaksi, prosessi paljastaa oikean monimutkaisuutensa. Standardityöaikataulun mukaan henkilö työskentelee noin 160 tuntia kuukaudessa. Tämä ei kuitenkaan tarkoita, että kaikki tämä aika voidaan käyttää tallentamiseen.
Käytännössä jatkuvat keskeytykset: akut loppuvat, kamerat siirtyvät, anturit epäonnistuvat. Mitä monimutkaisempi laitteiston asennus on, sitä suurempi on ongelmien todennäköisyys. Jopa yksinkertainen virhe, kuten sensoreiden loppuminen hanskoissa, voi pysäyttää prosessin ja johtaa ajan menetykseen.
Tuloksena on, että todellinen datan keräämisen nopeus on 2-3 kertaa hitaampi. Yksi tunti laadukasta tallennusta voi vaatia jopa kolme tuntia oikeaa työtä. Tämä muuttaa laskelmaa radikaalisti: 5 000 tuntia dataa vastaa noin 15 000 tuntia työtä.
Kerroksia monimutkaisuutta
Esikoulutuksessa voi riittää, että henkilölle annetaan kamera ja pyydetään tallentamaan arkipäivän toimintaa. Tässä vaiheessa vaaditaan kuitenkin pääsy tiettyyn ympäristöön, kuten tehtaaseen, rakennusalueelle tai erikoistuneeseen tuotantolaitokseen.
Tämä esittää välittömästi käytännön rajoituksia. Esimerkiksi rakennusalueella työntekijöiden on käytettävä turvallisuuden vuoksi suojakypäriä, mikä edellyttää erikoisvarusteiden kehittämistä: kypäriä, joissa on integroidut kamerat, jotka kestävät pölyä, kosteutta ja iskuja.
Sitten tulee itse alueen pääsy. On tehtävä sopimukset alueen omistajien kanssa, haettava lupia ja neuvoteltava ehtoja. Tämä vaatii lähes aina lisäkustannuksia: yritykset odottavat korvauksia, ja työntekijät odottavat palkkaa osallistumisestaan.
Vakuutus ja turvallisuuden noudattaminen ovat myös tärkeitä huolenaiheita. Jos laitteisto ei täytä vaadittuja standardeja, vakuutus voidaan mitätöidä, mikä pakottaa koko prosessin uudelleenjärjestämiseen.
Jopa päivittäisissä toimissa haasteet jatkuvat. Kameroiden on oltava päällä, niitä on seurattava ja niitä on ylläpidettävä. Työntekijät työskentelevät hanskoissa ja karheissa olosuhteissa. Laitteet likaantuvat, kuluvat ja hajoavat. Kamera voi sammua muutaman minuutin kuluttua, eikä henkilö edes huomaa.
Tämä luo tarpeen osallistujien kouluttamiselle – heidän on ymmärrettävä, miten laitteita käytetään. Lisäksi jatkuvaa valvontaa vaaditaan – joku on varmistettava, että tallennus on meneillään ja laitteet toimivat oikein.
Raakavideosta koulutusdataksi
Tallennuksen jälkeen seuraava vaihe alkaa: datan kerääminen, lataaminen, järjestäminen, laadun validointi ja merkitseminen.
Kaikki raakadata koostuu videosta ja anturisignaaleista. Muuttaaksesi sen koulutusmateriaaliksi, se on järjestettävä: objekteja on tunnistettava, toimintoja on havaittava, ja tiloja, liikkeitä ja ympäristön kanssa vuorovaikuttamista on kuvailla. Tässä vaiheessa annotointi tulee kuvaan. Looginen kysymys nousee – mikä on kultainen standardi tällaiselle annotaatioprosessille?
Joidenkin tapausten kohdalla yksinkertaiset rajaukset riittävät objektiiden tunnistamiseen kehyksessä. Toisissa tapauksissa vaaditaan aikajärjestyksellinen annotointi toimintojen kuvaamiseksi ajan kuluessa. Tietyissä skenaarioissa käytetään avainpisteitä ja luurankomalleja liikkeen ja ympäristön kanssa vuorovaikuttamisen kuvaamiseksi. Monimutkaisemmissa tapauksissa käytetään 3D-verkkoja tai käden asennon seurantaa ympäristön kanssa vuorovaikuttamisen tarkkaan kuvaamiseksi. Lisäanturit, kuten kiihtyvyysanturit, ovat usein integroituja liikkeen dynamiikan ja sovelletun voiman tallentamiseksi.
Tällaiset projektit vaativat usein myös tiimin skaalaamista. Merkitseminen on itsessään suuri ja monimutkainen tehtävä, joka vaatii aikaa, asiantuntemusta ja merkittäviä inhimillisiä resursseja. Tässä kohtaa tulevat mukaan dataratkaisujen tarjoajat, joilla on sisäiset annotaatiotiimit, kuten Keymakr, joka on osoittautunut erityisen tehokkaaksi kykynsä ansiosta skaalata tiimejä mihin tahansa dataan, yhdestä asiantuntijasta satoihin annotaattoreihin.
Ei ole oikeaa lähestymistapaa koulutukseen vielä
Teollisuus on edelleen tutkimusvaiheessa, koska ei ole yksimielisyyttä siitä, mikä datayhdistelmä tuottaa parhaat tulokset. Monet lähestymistavat vahvistetaan empiirisesti, koska ne toimivat tiettyjen kokeiden yhteydessä. Tämän seurauksena eri tiimit jatkavat riippumattomia teknologioita, jotka muotoillaan heidän omien kokemustensa, tehtäviensä ja rajoitustensa mukaan.
Akateemisella ja soveltavalla tasolla tämä johtaa fragmentaatioon: laboratoriot ja yritykset liikkuvat eri suuntiin. Tilanne muistuttaa itsestään ajatuksia autonomisen ajoituksen alkuvaiheista, jolloin Tesla panosti visio-ajatuksiin ilman LiDAR:ia, kun taas useimmat muut toimijat valitsivat LiDAR:in ydinanturiksi.
Nykyään LiDAR-pohjaiset järjestelmät osoittavat yleensä vakaampaa suorituskykyä, mutta Teslan lähestymistapa jatkaa kehittymistään. Ero on, että autonomisessa ajoituksessa markkinat ovat jo kypsiä: vakaat arkkitehtuurit ovat ilmaantuneet, rajoitukset ovat hyvin ymmärrettyjä ja merkittävä osaamista on kertynyt.
Vastakohtaisesti Physical AI:lle ja vastaaville mallien koulutukselle tällaista kypsymistä ei ole vielä saavutettu. Markkinat ovat edelleen muotoutumassa, standardeja puuttuu, ja suurin osa edistymisestä perustuu kokeiluihin. Uudet menetelmät mallien koulutukseen, tehokkuuden parantamiseen ja sopeutumiseen todellisiin skenaarioihin jatkavat kehittymistä, mikä viittaa siihen, että tärkeimmät läpimurrot tässä alalla ovat edelleen edessä.
Ihminen vahvistusjärjestelmänä
Merkitseminen ei ole erillään eikä ainoastaan mallille. Se toimii työkaluna mallin rakentavalle insinöörille. Sen kautta hän formalisoi todellisuuden, tunnistaa avainparametrit ja määrittää järjestelmän käyttäytymissäännöt.
Insinöörin tehtävä on opettaa järjestelmälle toimimaan oikein todellisissa olosuhteissa. Esimerkiksi perusskenaario voi koostua neljästä toiminnosta: lasin nostamisesta, hanan avaamisesta, täyttämisestä ja hanan sulkemisesta. Mutta todellisuudessa tapahtuu poikkeama – lasi täyttyy yli.
Tuossa vaiheessa mallia odotetaan suorittavan skenaarion ja tekemään lisätoimintoja. Tämä on käyttäytymisen logiikkaa kontekstuaalisen ymmärryksen perusteella.
Insinööri seuraa sykliä: annotoida dataa, kouluttaa mallia, testata sitä. Jos järjestelmä toimii, hypoteesi vahvistuu. Jos ei, analyysi alkaa.
Jossain vaiheessa voi selvitä, että malli puuttuu tärkeästä parametrasta, kuten lasin täyttöasteesta. Aikaisemmin dataan saattoi sisältyä annotaatioita objekteista (lasi, hana, käsittely), mutta ei tilasta, kuten täyttöasteesta.
Uusi kerros lisätään prosessiin: täyttöasteen annotointi, seurattuna formalisoinnilla, esimerkiksi määrittelemällä kaikki yli 85 %:n täyttöasteet kriittisiksi tiloiksi.
Tämä johtaa seuraavaan koulutuksen iterointiin. Voit käydä läpi satoja tällaisia iterointeja.
Kukaan ei oleta, että järjestelmä toimisi oikein heti. Sen sijaan prosessi on rakennettu peräkkäisten approksimointien ympärille: ensin luodaan perusversio; sitten se testataan todellisissa tai lähes todellisissa olosuhteissa; aukot tunnistetaan; ja järjestelmä jalostetaan. Tästä olen usein keskustellut asiakkaideni kanssa Introspectorissa, jossa kuljemme koko Physical AI -matkan yhdessä.
Jossain vaiheessa saavutetaan toivottu tulos. Mutta sen arvo ei ole ainoastaan siinä, että järjestelmä alkaa toimia, vaan kertyneessä kokemukseen, joka mahdollistaa tuloksen toistamisen ennustettavammin.
Taloudelliset seikat, joita kaikki unohtavat
Viimeisen vuoden aikana olen huomannut, että yritysten tekemä suurin virhe työskennellessä egosentrisen datan kanssa liittyy vain vähän teknologiaan.
Ydinongelma on itse asiassa projektien taloudellisessa aliarvioinnissa.
Ideavaiheessa teknologia on keskiössä – mitä malleja käytetään, miten niitä koulutetaan ja mitä lähestymistapoja sovelletaan. Tutkimme, teemme tutkimusta, keskustelemme arkkitehtuureista ja testaamme hypoteeseja. Tämä on luonnollista: teknologia tuntuu olevan ongelmien selkein ja ilmeisin osa.
Mutta paljon harvemmin tässä vaiheessa tiimit kysyvät suoraa ja käytännöllistä kysymystä: kuinka paljon se maksaa?
Kun projekti siirtyy teorian toteutukseen, selviää, että jokaisen mallin takana on kymmeniä tuhansia tunteja dataa. Tämän datan kerääminen vaatii aikaa, pääsyä todellisiin ympäristöihin ja asiantuntijoiden osallistumista. Merkitseminen lisää vielä yhden kerroksen monimutkaisuutta ja kustannuksia. Lopputuloksena luvut ovat usein useita kertoja suuremmat kuin aluksi odotettiin.
Tämä ei tarkoita, että tällaisia projekteja ei pitäisi toteuttaa. Päinvastoin, ne ajavat alan eteenpäin.
Mutta se, mitä on tärkeää, on ymmärtää haasteen mittakaava alusta alkaen. Tunnustaa, että mallien koulutuksessa on kompleksista, resursseja vaativaa data-työtä jokaisen upean algoritmin takana.
Jopa vahvat ideat eivät pääse täydelliseen toteutukseen, kun datan kustannukset alkavat kasvaa yli seitsemän numeron verran.
Ja ehkä tärkein muutos, joka tapahtuu robotti-alalla tänään, liittyy tähän toteamaan. Näiden järjestelmien tulevaisuus määritellään niiden “älykkyyden” mukaan ja siitä, miten koko dataputki on rakennettu – datan keräämisestä lopulliseen tulkintaan.












