škrbina Poučevanje robotov o orodjih z nevronskimi radiacijskimi polji (NeRF) - Unite.AI
Povežite se z nami

Robotika

Poučevanje robotov o orodjih z nevronskimi radiacijskimi polji (NeRF)

mm

objavljeno

 on

Nova raziskava Univerze v Michiganu ponuja način, kako roboti razumejo mehanizme orodij in drugih zgibnih predmetov iz resničnega sveta z ustvarjanjem Polja živčnega sevanja (NeRF), ki prikazujejo način premikanja teh predmetov, kar potencialno omogoča robotu interakcijo z njimi in njihovo uporabo brez dolgočasne namenske predkonfiguracije.

Z uporabo znanih izvornih referenc za notranjo gibljivost orodij (ali katerega koli predmeta z ustrezno referenco) lahko NARF22 sintetizira fotorealističen približek orodja ter njegovega obsega gibanja in vrste delovanja. Vir: https://progress.eecs.umich.edu/projects/narf/

Z uporabo znanih izvornih referenc za notranjo gibljivost orodij (ali katerega koli predmeta z ustrezno referenco) lahko NARF22 sintetizira fotorealističen približek orodja ter njegovega obsega gibanja in vrste delovanja. Vir: https://progress.eecs.umich.edu/projects/narf/

Roboti, od katerih se zahteva več kot izogibanje pešcem ali izvajanje podrobno vnaprej programiranih rutin (za katere so bili nabori podatkov za enkratno uporabo verjetno označeni in usposobljeni za določene stroške), potrebujejo to vrsto prilagodljive sposobnosti, če naj delajo z istimi materiali in predmeti, s katerimi se moramo vsi boriti.

Do danes so obstajale številne ovire za prežetje robotskih sistemov s tovrstno vsestranskostjo. Ti vključujejo pomanjkanje uporabnih naborov podatkov, od katerih mnogi vsebujejo zelo omejeno število predmetov; čisti stroški, povezani z ustvarjanjem vrste fotorealističnih 3D-modelov na osnovi mreže, ki lahko robotom pomagajo pri učenju instrumentalnosti v kontekstu resničnega sveta; in nefotorealistična kakovost takšnih naborov podatkov, ki so lahko dejansko primerni za izziv, zaradi česar so predmeti videti ločeni od tega, kar robot zaznava v svetu okoli sebe, in ga učijo, da išče predmet, podoben risanki, ki se nikoli ne bo pojavil v resničnost.

Da bi to rešili, so michiganski raziskovalci, katerih papirja je naslovljen NARF22: nevronsko artikulirana sevalna polja za upodabljanje, ki upošteva konfiguracijo, so razvili dvostopenjski cevovod za generiranje zgibnih objektov na osnovi NeRF, ki imajo videz 'resničnega sveta' in ki vključujejo gibanje in posledične omejitve katerega koli določenega zgibnega predmeta.

Čeprav se zdi bolj zapleteno, glavni dve stopnji cevovoda NARF22 vključujeta upodabljanje statičnih delov gibljivih orodij in nato sestavljanje teh elementov v drugi nabor podatkov, ki je obveščen o parametrih gibanja, ki jih imajo ti deli glede na drugega. Vir: https://arxiv.org/pdf/2210.01166.pdf

Čeprav se zdi bolj zapleteno, glavni dve stopnji cevovoda NARF22 vključujeta upodabljanje statičnih delov gibljivih orodij in nato sestavljanje teh elementov v drugi nabor podatkov, ki je obveščen o parametrih gibanja, ki jih imajo ti deli glede na drugega. Vir: https://arxiv.org/pdf/2210.01166.pdf

Sistem se imenuje Nevralno artikulirano sevalno polje – ali NARF22, da bi ga razlikovali od drugega projekta s podobnim imenom.

NARF22

Ugotavljanje, ali je neznan predmet potencialno artikuliran ali ne, zahteva skoraj nepredstavljivo količino človeškega predznanja. Na primer, če še nikoli niste videli zaprtega predala, bi se lahko zdelo, da gre za katero koli drugo vrsto okrasne obloge – šele ko ga dejansko odprete, ponotranjite »predal« kot artikuliran predmet z eno samo osjo gibanja (naprej in nazaj).

Zato NARF22 ni mišljen kot raziskovalni sistem za pobiranje stvari in ugotavljanje, ali imajo delujoče gibljive dele – skoraj opičje vedenje, ki bi povzročilo številne potencialno katastrofalne scenarije. Namesto tega okvir temelji na znanju, ki je na voljo v Univerzalni format opisa robota (URDF) – odprtokodni format na osnovi XML, ki je široko uporaben in primeren za nalogo. Datoteka URDF bo vsebovala uporabne parametre gibanja v predmetu ter opise in druge označene vidike delov predmeta.

Pri običajnih cevovodih je treba v bistvu opisati artikulacijske zmožnosti predmeta in označiti ustrezne skupne vrednosti. To ni poceni ali preprosto razširljiva naloga. Namesto tega potek dela NaRF22 upodablja posamezne komponente predmeta, preden vsako statično komponento 'sestavi' v artikulirano predstavitev, ki temelji na NeRF, s poznavanjem parametrov gibanja, ki jih zagotavlja URDF.

V drugi fazi postopka se ustvari popolnoma nov upodabljalnik, ki vključuje vse dele. Čeprav bi bilo lažje preprosto združiti posamezne dele na zgodnejši stopnji in preskočiti ta naslednji korak, raziskovalci opažajo, da ima končni model – ki je bil učen na grafičnem procesorju NVIDIA RTX 3080 pod procesorjem AMD 5600X – manjše računalniške zahteve med povratno širjenje kot tako nagla in prezgodnja skupščina.

Poleg tega se drugostopenjski model izvaja z dvakratno hitrostjo kot združeni, "nasilni" sestav, in vse sekundarne aplikacije, ki bodo morda morale uporabiti informacije o statičnih delih modela, ne bodo potrebovale lastnega dostopa do informacij URDF, ker to je že vključeno v upodabljalnik končne stopnje.

Podatki in poskusi

Raziskovalci so izvedli številne poskuse za testiranje NARF22: enega za oceno kvalitativnega upodabljanja za konfiguracijo in pozo vsakega predmeta; kvantitativni test za primerjavo upodobljenih rezultatov s podobnimi pogledi, ki jih vidijo roboti v resničnem svetu; in predstavitev ocene konfiguracije in izziv izboljšave 6 DOF (globina polja), ki je uporabil NARF22 za izvedbo optimizacije na podlagi gradienta.

Podatki o usposabljanju so bili vzeti iz Orodja za napredek nabor podatkov iz prejšnjega članka več avtorjev trenutnega dela. Orodja Progress Tools vsebujejo približno šest tisoč slik RGB-D (tj. vključno z informacijami o globini, bistvenimi za robotski vid) v ločljivosti 640 × 480. Uporabljeni prizori so vključevali osem ročnih orodij, razdeljenih na njihove sestavne dele, skupaj z mrežnimi modeli in informacijami o kinematičnih lastnostih predmetov (tj. način, kako so zasnovani za premikanje, in parametri tega gibanja).

Nabor podatkov Progress Tools vsebuje štiri zgibna orodja. Zgornje slike so upodobitve NARF22, ki temeljijo na NeRF.

Nabor podatkov Progress Tools vsebuje štiri zgibna orodja. Zgornje slike so upodobitve NARF22, ki temeljijo na NeRF.

Za ta poskus je bil končni model, ki ga je mogoče konfigurirati, usposobljen samo z uporabo klešč za linijske sodnike, klešč z dolgim ​​nosom in objemke (glejte sliko zgoraj). Podatki o usposabljanju so vsebovali eno samo konfiguracijo objemke in eno za vsako od klešč.

Izvedba NARF22 temelji na FastNeRF, z vhodnimi parametri, spremenjenimi tako, da se osredotočajo na združeno in prostorsko kodirano pozo orodij. FastNeRF uporablja faktoriziran večplastni perceptron (MLP) v paru z mehanizmom vokseliziranega vzorčenja (vokseli so v bistvu piksli, vendar s polnimi 3D koordinatami, tako da lahko delujejo v tridimenzionalnem prostoru).

Pri kvalitativnem testu raziskovalci ugotavljajo, da obstaja več zamašenih delov objemke (tj. osrednja hrbtenica, ki je ni mogoče spoznati ali uganiti z opazovanjem predmeta, temveč le z interakcijo z njim, in da ima sistem težave pri ustvarjanju tega 'neznana' geometrija.

Kakovostne upodobitve orodij.

Kakovostne upodobitve orodij.

Nasprotno pa so se klešče lahko dobro posplošile na nove konfiguracije (tj. na razširitve in premike njihovih delov, ki so znotraj parametrov URDF, vendar niso izrecno obravnavani v učnem gradivu za model.

Raziskovalci pa opažajo, da so napake pri označevanju klešč privedle do zmanjšanja kakovosti upodabljanja za zelo podrobne konice orodij, kar je negativno vplivalo na upodobitve – težava je povezana z veliko širšimi pomisleki glede logistike označevanja, proračuna in natančnosti v računalniku. raziskovalnega sektorja vizije, ne pa kakršnih koli postopkovnih pomanjkljivosti v načrtu NARF22.

Rezultati testa točnosti upodabljanja.

Rezultati testa točnosti upodabljanja.

Za teste ocenjevanja konfiguracije so raziskovalci izvedli izpopolnitev poze in oceno konfiguracije iz začetne 'toge' poze, pri čemer so se izognili kakršnemu koli predpomnjenju ali drugim pospeševalnim rešitvam, ki jih uporablja sam FastNeRF.

Nato so usposobili 17 dobro urejenih prizorov iz testnega nabora orodij za napredek (ki so bili med usposabljanjem ob strani), pri čemer so opravili 150 iteracij optimizacije gradientnega spuščanja pod optimizatorjem Adam. Ta postopek je po besedah ​​raziskovalcev "izjemno dobro" obnovil oceno konfiguracije.

Rezultati testa ocenjevanja konfiguracije.

Rezultati testa ocenjevanja konfiguracije.

 

Prvič objavljeno 5. oktobra 2022.