Ajatusjohtajat
Opetimme robotit liikkumaan. Nyt opetamme niitä elämään

Moderni robotiikka on saavuttanut vaiheen, jossa liikkuminen ei ole enää päähaaste – koneet voivat jo navigoida, tarttua ja toimia tilassa vaikuttavalla tarkkuudella. Silti mahdollistaa niiden todellinen “eläminen” ja toimiminen oikeassa maailmassa on edelleen ratkaisematon ongelma.
Tässä prosessissa avainrooli on “selkäytimeksi” kutsutussa järjestelmässä: järjestelmässä, joka vastaa perustoimintoja, käyttäytymistä ja ympäristön kanssa vuorovaikuttaessa.
Kun tarkastelemme robottien kehitystä tämän näkökulman kautta, käy ilmi, että tämä vaiheiden järjestys – jossa järjestelmä oppii uuden asian kussakin vaiheessa, yksinkertaisesta liikkeestä monimutkaisiin, kontekstiherkkään toimiin – muistuttaa läheisesti ihmisen kehitystä.
Ja juuri tämän kehityksen aikana – “tyhjästä” laitteesta merkitykselliseen käyttäytymiseen – tapahtuu tänään pääasiallinen muutos fyysisessä tekoälyssä. Mielenkiintoista on oppia siitä syvemmälti.
Robotiikan perusta: harvoin keskusteltu vaihe
Mitä robotti on käytännössä? Se on fyysinen laite, joka on alun perin luotu universaaliksi alustaksi. Olennaisesti se on “tyhjä”, joka on sitten sovitettava tiettyihin tehtäviin, koulutettava toimimaan tietyssä ympäristössä ja opetettava suorittamaan vaaditut toimet.
Jos siirrymme arkisten tilanteiden ohi ja tarkastelemme realistisempia lähitulevaisuuden sovelluksia, käy ilmi, että robotiikan täydellinen omaksuminen tapahtuu ennen kaikkea teollisissa ja mahdollisesti vaarallisissa ympäristöissä. Tämä edellyttää merkittävästi korkeampia vaatimuksia niiden käyttäytymiselle, luotettavuudelle ja koulutuksen laadulle.
Prosessi alkaa perustavanlaatuisimmasta vaiheesta – laitteen itse rakentamisesta. Robotti koostuu useista osista, mukaan lukien aktuaattorit, moottorit, anturit, kamerat, LiDARit. Se voi olla humanoidi, pyörillinen, kaksijalkainen tai nelijalkainen – muoto on toissijainen. Oleellista on, että tässä vaiheessa päädytään toimivaan, mutta edelleen “tyhjään” laitteeseen.
Seuraava vaihe on perusmallin asentaminen, joka toimii sen käyttäytymisen perustana. Laajassa mielessä “malli” on koko toiminnallinen ohjauskerros. Se vastaa perussääntöjä: säilyttää tasapaino, seistä ja liikkua, navigoida pisteestä A pisteeseen B, välttää esteitä, ei vahingoita ympäristöä ja turvallisesti vuorovaikuta ihmisten kanssa.
Tässä vaiheessa vahvistusoppiminen tulee kuvaan. Tällaisissa järjestelmissä suoritetaan miljardeja simulaatioita. Usein näemme videoita robotista “opiskelemassa” monimutkaisissa ympäristöissä: useimmat niistä kaatuvat, menettävät tasapainonsa tai eivät onnistu suorittamaan tehtävää. Mutta ne, jotka onnistuvat pysymään pystyssä ja jatkamaan liikkumista, ovat ne, jotka edistävät.
Tämä on vahvistusoppimisen ydin: menestyvän käyttäytymisen valinta. Niiden algoritmit, jotka “selviävät”, muodostavat perustan seuraaville iteroinneille. Tuloksena valtavan suuren määrän suoritusten jälkeen syntyy malli, joka voi varmasti hallita esteitä. Tämä algoritmi siirretään sitten fyysiseen laitteeseen.
Se on perusteltu, mutta kriittinen vaihe – usein käyttämättä tietokonegrafiikkaa, jota ei tarvita tässä vaiheessa. Mitä meillä on tässä vaiheessa, on perusfysiikkaa ja mekaniikkaa, jotka on upotettava järjestelmään alusta alkaen.
Robotit alkavat “tuntea” maailman
Niin, meillä on jo “laitteisto” – robotti, jossa on perusmalli asennettuna: se voi seistä, kävellä ja säilyttää tasapainoa. Mutta onko tämä riittävää oikean maailman tehtäviin, esimerkiksi teollisissa ympäristöissä? Selvästi ei.
Seuraava taso alkaa tästä. Integroidaan anturit ja koulutetaan malli toimimaan aistihavaintojen perusteella. Uusi kerros perustaitoja nousee esiin – jo paljon monimutkaisempi kuin yksinkertainen liike.
Ihmiskehityksen vertaus on hyödyllinen tässä. Ensimmäisessä vaiheessa saimme järjestelmän noin yksivuotiaan lapsen tasolle: se voi seistä, ottaa ensimmäiset askeleet ja säilyttää tasapainoa ilman kaatamista. Seuraava askel on enemmän kahdeksanvuotiaan lapsen tasolla.
Tässä iässä lapsi käyttää aktiivisesti “aistimiaan”: se voi havaita riskin ja arvioida tekojensa seurauksia. Se ymmärtää, ettei saa koskea kuumaan tai laittaa liian kylmää suuhunsa. Se voi kiipeä pöydälle, ajaa polkupyörällä ja vuorovaikuttaa esineiden kanssa. Se on kykeneväinen tarttumaan, kantamaan ja manipuloimaan esineitä ja suorittamaan perus itsehoitoa.
Tätä vaihetta kutsutaan esikoulutukseksi. Ja tässä vaiheessa simulaatiot eivät enää riitä.
Kyllä, joitakin skenaarioita voidaan edelleen mallintaa tehokkaasti: miten nostaa lasi, tai miten korvata akku, poistaa yksi komponentti, laittaa se lataukseen, ottaa toinen ja asentaa se takaisin.
Mutta kokonaisuutena tasapaino siirtyy: noin 80 % koulutuksesta voidaan edelleen suorittaa simulaatiossa, kun taas noin 20 % tietojen on tuleva oikeasta maailmasta. Ja tässä vaiheessa aloitamme egosentrisen datan keskustelun.
Egosentriset datat ympäristön ymmärtämisen perustana
Tänään egosentrisiä tietoja kerätään valtavassa mittakaavassa maailmanlaajuisesti – ilman sitä on mahdotonta siirtyä perusmekaniikasta merkitykselliseen vuorovaikutukseen oikean maailman kanssa. Yksi kollegani, joka johtaa autohuoltoverkostoa, on työntekijöillään pääkameran, jolla he tallentavat koko auton korjausprosessin. New Yorkin kiinteistönomistaja on toteuttanut vastaavan lähestymistavan: siivoojat käyttävät otsakameran, joka tallentaa, miten he puhdistavat tiloja ja ylläpitävät hygieenisiä alueita.
Ajan myötä nämä tallenteet muodostuvat itsenään olevaksi tuotteeksi – ne pakataan ja myydään. Niiden avainarvo on soveltuvuudessaan esikoulutukseen, jossa avustetaan perusympäristön ymmärtämistä ja toimien jonojen rakentamista.
Esimerkiksi tällainen palvelu oli olemassa Keymakr-sivustolla, jossa tiimi itsenäisesti loi kokoelmat egosentrisiä tietoja yksinkertaisista skenaarioista, kuten astioiden pesusta, monimutkaisempiin skenaarioihin.
Miksi tämä on niin tärkeää? Koska tällaiset tiedot tarjoavat jotain, mitä puhtaasti simulaatio ei voi – oikean maailman ympäristöjen monimuotoisuuden. Toimistot, autohuollot, rakennuskohteet, ravintolat ja hotellit – kunkin näistä lisää omaa kontekstia, skenaarioita ja hienovaraisuuksia. Yhdessä ne muodostavat tietokannan, joka sallii järjestelmän ymmärtää oikean maailman dynamiikkaa.
Tässä vaiheessa tavoitteena ei enää ole opettaa robotti suorittamaan tiettyä toimintaa täydellisesti. Oleellisempaa on mahdollistaa sen suuntautuminen ympäristössään ensinnäkin.
Tänään lähes kaikki robotiikkaa tekevät yritykset – Teslasta Unitree Roboticsiin ja Figure AI:hin – keskittyvät tähän tarkkaan vaiheeseen. Heidän tavoitteenaan on rakentaa perusmalli, jonka kyvyt muistuttavat enemmän “kahdeksanvuotiaan lapsen” ja sitten edetä “kaksitoistavuotiaan” suuntaan. Tämä on myös se, mihin me keskitymme Introspector-palvelussa – valmistamaan tietoja, joita tarvitaan esikoulutuksessa, modernin robotiikan “tulemisessa täysi-ikäiseksi” -vaiheessa.
Koulutuksen viimeinen maili: missä yleisyys päättyy ja erikoistuminen alkaa
Kuvitellaan, että robotti on jo suorittanut esikoulutuksensa ja on valmistettu alusta alkaen perusympäristön ymmärtämisen ja taitojen kanssa, jotka ovat vertailukelpoisia teini-ikäisen kanssa. Mutta edelleen tämä ei riitä oikean liiketoimintatapauksiin. Yritykset eivät tarvitse vain “yleispätevää” robottia – he tarvitsevat erikoistunutta.
Otetaan esimerkiksi autonvalmistus. Joitakin tehtäviä suorittavat edelleen ihmiset, koska ne vaativat herkkyyttä, tarkkuutta ja jatkuvaan visuaalista valvontaa. Perinteinen automaatio kamppailee tässä. Teolliset manipulaattorit ovat erinomaisia toistuvissa, jähmeissä tehtävissä – “nosta, siirrä, aseta”. Mutta tehtävät, jotka vaativat sopeutumista, paineen tuntemista ja reaaliaikaisia säätöjä, pysyvät edelleen ihmisten alueena.
Tässä vaiheessa uusi vaatimus nousee esiin: kouluttaa robotti suorittamaan tiettyä toimintaa täsmälleen samalla tavalla kuin taitava työntekijä tuotantolinjalla. Toisin sanoen peruskoulutuksen jälkeen tulee seuraava taso: koulutus tiettyyn ammattiin ja skenaarioon.
Tässä vaiheessa käytännöllinen kysymys nousee esiin: mitä tämän tason koulutukseen vaaditaan? Jos haluamme robotin toistavan ihmisen suorituksen, meidän on pyrittävä kaappaamaan tämän ihmisen käyttäytymisen mahdollisimman tarkasti. Esimerkiksi erikoismies tuotantolinjalla tarvitsisi käyttää kameraa ja tallentaa, miten hän suorittaa tehtävän, usean kuukauden tai jopa vuoden ajan.
Mitä vaaditaan robotien “elämiseen” ihmisten maailmassa
Kamera yksin ei riitä. On tarpeen kaapata sekä visuaalinen näkökulma että liikkeen fysiikka. Tämä tehdään erikoistuneilla hanskoilla, joissa on tatsuhavaitseja, jotka mitäävät painetta, käytettyä voimaa ja esineiden kanssa vuorovaikuttaessa olevan vuorovaikutuksen. Tämä on erityisen tärkeää, koska esineet itse voivat vaihdella merkittävästi. Esimerkiksi tiivisteet voivat vaihdella jäykyydeltään auton mallin mukaan, mikä vaikuttaa suoraan siihen, miten tehtävä suoritetaan.
Seuraavaksi tulee kinemaattinen seuranta. Merkit – visuaaliset tai anturipohjaiset – asetetaan ranteisiin, kyynärvartaloihin ja toisinaan olkavarsiin. Niihin voi kuulua esimerkiksi rannerenkaat, joissa on tunnistettavia merkkejä (kuten QR-koodit), jotka sallivat järjestelmän seurata käsien sijaintia videolta. Lisäksi käytetään muita antureita, kuten gyroskooppeja, jotta voidaan kaapata nivelten liikkeet.
Lopullinen tavoite on täydellisesti rekonstruuaminen liikkeen mekaniikkaa: miten olka liikkuu, miten kyynärpää taipuu, miten ranne pyörii. Kaikki tämä tulee olemaan olennaista seuraavassa vaiheessa – jälkikoulutuksessa.
Jos esikoulutuksessa voimme edelleen osittain luottaa simulaatioon, tässä vaiheessa se ei enää toimi. Tämä “viimeinen maili” on lähes mahdoton mallintaa tarkasti. Et voi mallintaa esimerkiksi, miten kokki venyttää taikinaa – miten voimaa käytetään, miten painetta jaetaan, miten materiaalia tuntuu.
Siksi jälkikoulutuksessa lähes kaikki tiedot on saatava oikeasta maailmasta. Ja tässä vaiheessa käy ilmi: päähaaste siirtyy käytännön alueelle – miten hankkia tällaiset tiedot todellisuudessa. Egosentrisen datan kerääminen tässä tasolla on monivaiheinen prosessi, joka vaatii pääsyä ympäristöihin, erikoisvälineistöä, osaavan työvoiman osallistumista ja myöhempiä tietojen valmistelua.
Teorian ulottuvuuden lisäksi tämä on vaihe, jossa robotit “tulevat eloon” – kun onnistumme järjestämään tämän prosessin, voittamaan rajoitukset, joita tiimit kohtaavat eri aloilla, ja annotoimaan tällaiset tietokannat laajassa mittakaavassa. Tämä käsitellään seuraavassa osassa, jossa tarkastelemme kaikkia haasteita, jotka ilmenevät sen merkinnän ja valmistelun aikana.












