Spojte se s námi

Umělá inteligence

Jak umělá inteligence dělá rozpoznávání znakové řeči přesnější než kdy jindy

mm
Bader Alsharif, první autor a Ph.D. kandidát (FAU)

Když přemýšlíme o prolomení komunikačních bariér, často se zaměřujeme na aplikace pro překlad jazyků nebo hlasové asistenty. Ale pro miliony lidí, kteří používají znakový jazyk, tyto nástroje tuto propast zcela nepřeklenuly. Znaková řeč není jen o pohybech rukou – je to bohatá, komplexní forma komunikace, která zahrnuje výrazy obličeje a řeč těla, přičemž každý prvek nese zásadní význam.

Toto je obzvláště náročné: na rozdíl od mluvených jazyků, které se liší především slovní zásobou a gramatikou, se znakové jazyky na celém světě zásadně liší v tom, jak vyjadřují význam. Americký znakový jazyk (ASL) má například svou vlastní jedinečnou gramatiku a syntaxi, která neodpovídá mluvené angličtině.

Tato složitost znamená, že vytvoření technologie pro rozpoznávání a překlad znakového jazyka v reálném čase vyžaduje pochopení celého jazykového systému v pohybu.

Nový přístup k uznání

Právě zde se tým z Fakulty inženýrství a informatiky Florida Atlantic University (FAU) rozhodl pro nový přístup. Místo aby se snažili řešit celou složitost znakového jazyka najednou, zaměřili se na zvládnutí klíčového prvního kroku: rozpoznávání gest abecedy ASL s bezprecedentní přesností pomocí umělé inteligence.

Představte si to jako učit počítač číst rukopis, ale ve třech rozměrech a v pohybu. Tým vytvořil něco pozoruhodného: datovou sadu 29,820 21 statických obrázků ukazujících gesta rukou ASL. Nesbírali ale jen obrázky. Každý obrázek označili XNUMX klíčovými body na ruce a vytvořili tak podrobnou mapu pohybu rukou a vytváření různých znaků.

Dr. Bader Alsharif, který vedl tento výzkum jako doktorand, vysvětluje: „Tato metoda nebyla v předchozím výzkumu prozkoumána, což z ní činí nový a slibný směr pro budoucí pokrok.“

Rozbití technologie

Pojďme se ponořit do kombinace technologií, které umožňují fungování tohoto systému rozpoznávání znakového jazyka.

MediaPipe a YOLOv8

Kouzlo se děje díky bezproblémové integraci dvou výkonných nástrojů: MediaPipe a YOLOv8. Představte si MediaPipe jako zkušeného pozorovatele rukou – zkušeného tlumočníka znakového jazyka, který dokáže sledovat každý jemný pohyb prstu a polohu ruky. Výzkumný tým si vybral MediaPipe speciálně pro jeho výjimečnou schopnost poskytovat přesné sledování orientačních bodů ruky, identifikovat 21 přesných bodů na každé ruce, jak jsme zmínili výše.

Ale sledování nestačí – musíme pochopit, co tyto pohyby znamenají. Zde přichází na řadu YOLOv8. YOLOv8 je expert na rozpoznávání vzorů, který bere všechny ty sledované body a zjišťuje, které písmeno nebo gesto představují. Výzkum ukazuje, že když YOLOv8 zpracovává obrázek, rozdělí jej na mřížku S × S, přičemž každá buňka mřížky je zodpovědná za detekci objektů (v tomto případě gest rukou) v jejích hranicích.

Alsharif a kol., Franklin Open (2024)

Jak systém skutečně funguje

Proces je sofistikovanější, než by se na první pohled mohlo zdát.

Co se děje v zákulisí:

Fáze detekce ruky

Když uděláte znamení, MediaPipe nejprve identifikuje vaši ruku v rámu a zmapuje těchto 21 klíčových bodů. Nejsou to jen náhodné tečky – odpovídají konkrétním kloubům a orientačním bodům na vaší ruce, od konečků prstů až po základnu dlaně.

Prostorová analýza

YOLOv8 pak vezme tyto informace a analyzuje je v reálném čase. Pro každou buňku mřížky v obrázku předpovídá:

  • Pravděpodobnost přítomnosti gesta rukou
  • Přesné souřadnice umístění gesta
  • Skóre spolehlivosti jeho předpovědi

Klasifikace

Systém používá něco, čemu se říká „predikce ohraničení“ – představte si, že kolem gesta ruky nakreslíte dokonalý obdélník. YOLOv8 vypočítá pět klíčových hodnot pro každý rámeček: souřadnice x a y pro střed, šířku, výšku a skóre spolehlivosti.

Alsharif a kol., Franklin Open (2024)

Proč tato kombinace funguje tak dobře

Výzkumný tým zjistil, že kombinací těchto technologií vytvořili něco většího než jen součet jednotlivých částí. Přesné sledování MediaPipe v kombinaci s pokročilou detekcí objektů YOLOv8 přineslo pozoruhodně přesné výsledky – mluvíme o 98% míře přesnosti a 99% skóre F1.

Obzvláště působivé je to, jak systém zvládá složitost znakového jazyka. Některé znaky mohou vypadat velmi podobně jako netrénované oči, ale systém dokáže zaznamenat jemné rozdíly.

Rekordní výsledky

Když výzkumníci vyvíjejí novou technologii, velkou otázkou vždy je: "Jak dobře to vlastně funguje?" U tohoto systému rozpoznávání znakového jazyka jsou výsledky působivé.

Tým z FAU podrobil svůj systém důkladnému testování a zde jsou jeho zjištění:

  • Systém správně identifikuje značky v 98 % případů
  • Zachytí 98 % všech značek vyrobených před ním
  • Celkové skóre výkonu dosahuje působivých 99 %

„Výsledky našeho výzkumu prokazují schopnost našeho modelu přesně detekovat a klasifikovat gesta amerického znakového jazyka s velmi malým počtem chyb,“ vysvětluje Alsharif.

Systém funguje dobře v každodenních situacích – různé osvětlení, různé polohy rukou a dokonce i při podepisování různých lidí.

Tento průlom posouvá hranice možností v rozpoznávání znakového jazyka. Předchozí systémy se potýkaly s přesností, ale kombinací sledování ruky MediaPipe s detekčními schopnostmi YOLOv8 vytvořil výzkumný tým něco speciálního.

„Úspěch tohoto modelu je z velké části zásluhou pečlivé integrace transferového učení, pečlivého vytváření datových sad a přesného ladění,“ říká Mohammad Ilyas, jeden ze spoluautorů studie. Tato pozornost věnovaná detailům se vyplatila v podobě pozoruhodného výkonu systému.

Co to znamená pro komunikaci

Úspěch tohoto systému otevírá vzrušující možnosti, jak učinit komunikaci přístupnější a inkluzivnější.

Tým se nezastaví pouze u rozpoznávání písmen. Další velkou výzvou je naučit systém rozumět ještě širší škále tvarů rukou a gest. Vzpomeňte si na ty okamžiky, kdy znaky vypadají téměř identicky – například písmena „M“ a „N“ ve znakovém jazyce. Vědci pracují na tom, aby jejich systém dokázal tyto jemné rozdíly ještě lépe zachytit. Jak říká Dr. Alsharif: „Důležité je, že zjištění z této studie zdůrazňují nejen robustnost systému, ale také jeho potenciál pro použití v praktických aplikacích v reálném čase.“

Tým se nyní zaměřuje na:

  • Zajištění bezproblémového fungování systému na běžných zařízeních
  • Díky tomu je dostatečně rychlý pro konverzace v reálném světě
  • Zajištění spolehlivého fungování v jakémkoli prostředí

Děkanka Stella Batalama z Fakulty inženýrství a informatiky na FAU sdílí širší vizi: „Zlepšením rozpoznávání amerického znakového jazyka tato práce přispívá k vytváření nástrojů, které mohou zlepšit komunikaci pro komunitu neslyšících a nedoslýchavých.“

Představte si, že jdete do ordinace lékaře nebo na kurz, kde tato technologie okamžitě překlenuje komunikační mezery. To je skutečný cíl – učinit každodenní interakce plynulejšími a přirozenějšími pro všechny zúčastněné. Jde o vytvoření technologie, která lidem skutečně pomáhá propojovat se. Ať už se jedná o vzdělávání, zdravotnictví nebo každodenní konverzace, tento systém představuje krok směrem ke světu, kde se komunikační bariéry neustále zmenšují.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.