Kontakt z nami

Artificial Intelligence

Naukowcy opracowują nowy algorytm rozpoznawania gestów dłoni

mm

Zespół naukowców kierowany przez Zhiyi Yu z Uniwersytetu Sun Yat-sena opracował nowy algorytm rozpoznawania gestów dłoni, który jest złożony, dokładny i ma zastosowanie. 

Gesty rąk są coraz częściej stosowane w interakcjach człowiek-komputer, a najnowsze postępy w systemach kamer, analizie obrazu i uczeniu maszynowym znacznie poprawiły rozpoznawanie gestów w oparciu o optykę. W związku z tym obecne metody stoją przed wieloma wyzwaniami wynikającymi z ograniczeń związanych z dużą złożonością obliczeniową, małą szybkością, słabą dokładnością i małą liczbą rozpoznawalnych gestów. 

Nowy algorytm opracowany przez zespół próbuje przezwyciężyć te ograniczenia i został szczegółowo opisany w artykule opublikowanym w czasopiśmie „ Journal of Electronic Imaging. Jednym z głównych celów zespołu było stworzenie algorytmu, który nie tylko pokona te wyzwania, ale będzie można go również łatwo zastosować w urządzeniach konsumenckich.

Możliwość dostosowania do różnych typów dłoni

Jednym z najbardziej imponujących aspektów algorytmu jest jego możliwość dostosowania do różnych typów dłoni. Najpierw próbuje sklasyfikować typ dłoni użytkownika jako szczupły, normalny lub szeroki. Dokonuje tego w oparciu o trzy pomiary uwzględniające związek między szerokością dłoni, długością dłoni i długością palca. 

Po pomyślnej klasyfikacji proces rozpoznawania gestu dłoni porównuje gest wejściowy z przechowywanymi próbkami tego samego rodzaju dłoni. 

„Tradycyjne proste algorytmy zwykle charakteryzują się niskim współczynnikiem rozpoznawania, ponieważ nie radzą sobie z różnymi typami dłoni. Klasyfikując najpierw gest wprowadzania danych według typu dłoni, a następnie korzystając z przykładowych bibliotek pasujących do tego typu, możemy poprawić ogólny współczynnik rozpoznawania przy niemal znikomym zużyciu zasobów” – mówi Yu.

Krok wstępnego rozpoznania

Metoda zespołu opiera się również na wykorzystaniu „funkcji skrótu” w celu wykonania etapu wstępnego rozpoznawania. Algorytm rozpoznawania jest w stanie zidentyfikować gest wejściowy spośród dziewięciu możliwych gestów, ale porównanie wszystkich cech gestu wejściowego z przechowywanymi próbkami wszystkich możliwych gestów jest niezwykle czasochłonne. 

Aby temu zaradzić, algorytm na etapie wstępnego rozpoznawania oblicza stosunek powierzchni dłoni, aby wybrać trzy najbardziej prawdopodobne gesty z możliwych dziewięciu. To zwiększa liczbę potencjalnych gestów do trzech, a o ostatecznym geście decyduje bardziej złożona i precyzyjna ekstrakcja cech w oparciu o „momenty niezmiennicze Hu”.

„Etap wstępnego rozpoznawania gestów nie tylko zmniejsza liczbę wymaganych obliczeń i zasobów sprzętowych, ale także poprawia szybkość rozpoznawania bez pogarszania dokładności” – mówi Yu. 

Algorytm został przetestowany w komercyjnym procesorze komputera PC i platformie FPGA przy użyciu kamery USB. Zespół poprosił 40 ochotników o wielokrotne wykonanie dziewięciu gestów, a kolejnych 40 wykorzystano do określenia dokładności systemu.

System wykazał, że potrafi rozpoznawać gesty dłoni w czasie rzeczywistym z dokładnością ponad 93%. Działo się tak nawet wtedy, gdy obrazy gestów wejściowych były obracane, tłumaczone lub skalowane. 

Naukowcy twierdzą, że teraz skupią się na poprawie wydajności algorytmu w różnych warunkach oświetleniowych, a także na zwiększeniu liczby możliwych gestów. 

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją badającym najnowsze osiągnięcia w dziedzinie sztucznej inteligencji. Współpracował z wieloma startupami i publikacjami AI na całym świecie.