Umělá inteligence
Výzkumníci vyvinuli nový algoritmus pro rozpoznávání gest rukou

Tým výzkumníků pod vedením Zhiyi Yu ze Sun Yat-sen University vyvinul nový algoritmus pro rozpoznávání gest rukou, který je komplexní, přesný a použitelný.
Gesta rukou jsou stále více přijímána pro interakce mezi člověkem a počítačem a nedávné pokroky v kamerových systémech, analýze obrazu a strojovém učení výrazně zlepšily rozpoznávání gest založené na optickém principu. Díky tomu čelí současné metody mnoha výzvám kvůli omezením ve vysoké výpočetní složitosti, nízké rychlosti, špatné přesnosti a nízkému počtu rozpoznatelných gest.
Nový algoritmus vyvinutý týmem se pokouší překonat tato omezení a byl podrobně popsán v článku publikovaném v Journal of Electronic Imaging. Jedním z hlavních cílů týmu bylo vytvořit algoritmus, který nejen překoná tyto výzvy, ale dá se také snadno použít v zařízeních na spotřebitelské úrovni.
Adaptabilita na různé typy rukou
Jedním z nejpůsobivějších aspektů algoritmu je jeho přizpůsobivost různým typům rukou. Nejprve se pokouší klasifikovat typ ruky uživatele buď jako štíhlou, normální nebo širokou. Dělá to na základě tří měření, která zohledňují vztahy mezi šířkou dlaně, délkou dlaně a délkou prstu.
Po úspěšné klasifikaci proces rozpoznávání gest ruky porovná vstupní gesto s uloženými vzorky stejného typu ruky.
„Tradiční jednoduché algoritmy mají tendenci trpět nízkou mírou rozpoznávání, protože si nedokážou poradit s různými typy rukou. Tím, že nejprve klasifikujeme vstupní gesto podle typu ruky a poté použijeme vzorové knihovny, které tomuto typu odpovídají, můžeme zlepšit celkovou míru rozpoznávání s téměř zanedbatelnou spotřebou zdrojů,“ říká Yu.
Krok předběžného rozpoznání
Metoda týmu také spoléhá na použití „funkce zkratky“ k provedení kroku předběžného rozpoznání. Rozpoznávací algoritmus je schopen identifikovat vstupní gesto z devíti možných gest, ale porovnání všech funkcí vstupního gesta s vlastnostmi uložených vzorků pro všechna možná gesta je extrémně časově náročné.
Aby se tomu zabránilo, krok předběžného rozpoznání algoritmu vypočítá poměr plochy ruky, aby vybral tři nejpravděpodobnější gesta z možných devíti. Tím se počet kandidátských gest zvyšuje na tři a o konečném gestu rozhoduje složitější a vysoce přesná extrakce funkcí na základě „neměnných momentů Hu“.
„Krok předběžného rozpoznání gest nejen snižuje počet potřebných výpočtů a hardwarových zdrojů, ale také zlepšuje rychlost rozpoznávání, aniž by byla ohrožena přesnost,“ říká Yu.
Algoritmus byl testován v komerčním PC procesoru a platformě FPGA pomocí USB kamery. Tým vyzval 40 dobrovolníků, aby provedli devět gest několikrát, a 40 dalších bylo použito k určení přesnosti systému.
Systém prokázal, že dokáže rozpoznat gesta rukou v reálném čase s přesností přes 93 %. Bylo tomu tak, i když byly obrázky vstupních gest otočeny, přeloženy nebo změněny.
Výzkumníci říkají, že se nyní zaměří na zlepšení výkonu algoritmu za různých světelných podmínek a také na zvýšení počtu možných gest.