Connect with us

Umělá inteligence

Jak AI dělá rozpoznávání znakového jazyka přesnější než kdykoli předtím

mm

Když přemýšlíme o prolomení komunikačních bariér, často se zaměřujeme na aplikace pro překlad jazyka nebo hlasové asistenty. Ale pro miliony lidí, kteří používají znakový jazyk, tyto nástroje ještě úplně nezavřely mezeru. Znakový jazyk není jen o pohybech rukou – je to bohatý, komplexní forma komunikace, která zahrnuje mimiku a neverbální komunikaci, přičemž každý prvek nese zásadní význam.

To, co toto činí zvláště náročným, je: na rozdíl od mluvených jazyků, které se liší hlavně ve slovní zásobě a gramatice, se znakové jazyky po celém světě liší fundamentálně v tom, jak přenášejí význam. Americký znakový jazyk (ASL), například, má svou vlastní jedinečnou gramatiku a syntax, která se neshoduje se spisovnou angličtinou.

Tato komplexnost znamená, že vytvoření technologie pro rozpoznávání a překlad znakového jazyka v reálném čase vyžaduje pochopení celého jazykového systému v pohybu.

Nový přístup k rozpoznávání

Zde se tým na Floridské atlantské univerzitě (FAU) v College of Engineering and Computer Science rozhodl jít novou cestou. Místo toho, aby se pokusil zvládnout celou komplexnost znakového jazyka najednou, se zaměřil na zvládnutí zásadního prvního kroku: rozpoznávání gest ASL abecedy s bezprecedentní přesností pomocí AI.

Představte si to jako učení počítače číst rukopis, ale ve třech rozměrech a v pohybu. Tým vytvořil něco pozoruhodného: dataset 29 820 statických obrázků znázorňujících gesta rukou ASL. Ale oni ne pouze sesbírali obrázky. Označili každý obrázek 21 klíčovými body na ruce, vytvářející detailní mapu, jak ruce pohybují a formují různé znaky.

Dr. Bader Alsharif, který vedl toto výzkum jako doktorand, vysvětluje: “Tato metoda nebyla prozkoumána v předchozím výzkumu, což z ní činí novou a slibnou směr pro budoucí pokroky.”

Rozklad technologie

Pojďme se ponořit do kombinace technologií, které činí tento systém rozpoznávání znakového jazyka funkčním.

MediaPipe a YOLOv8

Magie se děje prostřednictvím bezproblémové integrace dvou mocných nástrojů: MediaPipe a YOLOv8. Představte si MediaPipe jako odborníka na sledování rukou – zkušený tlumočník znakového jazyka, který může sledovat každý jemný pohyb prstů a polohu ruky. Výzkumný tým si vybral MediaPipe speciálně pro jeho výjimečnou schopnost poskytnout přesné sledování ruky, identifikující 21 přesných bodů na každé ruce, jak jsme zmínili výše.

Ale sledování nestačí – potřebujeme pochopit, co tyto pohyby znamenají. To je místo, kde YOLOv8 vstupuje do hry. YOLOv8 je odborník na rozpoznávání vzorců, který bere všechny tyto sledované body a určuje, kterou písmeno nebo gesto reprezentují. Výzkum ukazuje, že když YOLOv8 zpracovává obrázek, rozdělí ho do mřížky S × S, přičemž každá mřížková buňka je zodpovědná za detekci objektů (v tomto případě gest rukou) v rámci svých hranic.

Alsharif et al., Franklin Open (2024)

Jak systém skutečně funguje

Proces je složitější, než by se na první pohled mohlo zdát.

Zde je, co se děje za scénou:

Stupeň detekce ruky

Když uděláte gesto, MediaPipe nejprve identifikuje vaši ruku v rámci a mapuje ty 21 klíčových bodů. Tyto body nejsou jen náhodné tečky – odpovídají specifickým kloubům a orientačním bodům na vaší ruce, od špiček prstů po základnu dlaně.

Prostorová analýza

YOLOv8 poté bere tyto informace a analyzuje je v reálném čase. Pro každou mřížkovou buňku v obrázku předpovídá:

  • Pravděpodobnost přítomnosti gesta ruky
  • Přesné souřadnice umístění gesta
  • Skóre spolehlivosti jeho předpovědi

Klasifikace

Systém používá něco, co se nazývá “předpověď ohraničujícího rámečku” – představte si kreslení dokonalého obdélníku kolem vašeho gesta ruky. YOLOv8 vypočítá pět zásadních hodnot pro každý rámeček: x a y souřadnice pro střed, šířku, výšku a skóre spolehlivosti.

Alsharif et al., Franklin Open (2024)

Proč tato kombinace funguje tak dobře

Výzkumný tým zjistil, že kombinací těchto technologií vytvořil něco většího než součet jeho částí. Precizní sledování MediaPipe v kombinaci s pokročilým rozpoznáváním objektů YOLOv8 produkovalo pozoruhodně přesné výsledky – mluvíme o 98% přesnosti a 99% F1 skóre.

Co činí toto zvláště působivým, je to, jak systém zvládá komplexnost znakového jazyka. Některá gesta mohou vypadat velmi podobně pro nezkušené oči, ale systém může rozpoznat jemné rozdíly.

Rekordní výsledky

Když výzkumníci vyvíjejí novou technologii, velkou otázkou je vždy: “Jak dobře to skutečně funguje?” Pro tento systém rozpoznávání znakového jazyka jsou výsledky působivé.

Tým na FAU podrobil svůj systém přísnému testování, a zde jsou výsledky:

  • Systém správně identifikuje gesta 98 % času
  • Chytá 98 % všech gest provedených před ním
  • Celkové skóre výkonu dosahuje působivých 99 %

“Výsledky našeho výzkumu demonstrují schopnost našeho modelu přesně detekovat a klasifikovat gesta amerického znakového jazyka s velmi málo chybami,” vysvětluje Alsharif.

Systém funguje dobře v každodenních situacích – různé osvětlení, různé polohy rukou a dokonce i s různými lidmi, kteří gesta provádějí.

Tento průlom posouvá hranice toho, co je možné v rozpoznávání znakového jazyka. Předchozí systémy měly problémy s přesností, ale kombinací sledování rukou MediaPipe a detekčních schopností YOLOv8 vytvořil výzkumný tým něco zvláštního.

“Úspěch tohoto modelu je do značné míry způsoben pečlivou integrací přenosného učení, pečlivým vytvořením datasetu a přesným laděním,” říká Mohammad Ilyas, jeden z spoluautorů studie. Tato pozornost k detailu se vyplatila ve výjimečném výkonu systému.

Co to znamená pro komunikaci

Úspěch tohoto systému otevírá zajímavé možnosti pro zpřístupnění komunikace a zvýšení inkluze.

Tým se nezastaví pouze u rozpoznávání písmen. Další velkou výzvou je naučit systém chápat ještě širší rozsah tvarů a gest rukou. Představte si ty okamžiky, kdy gesta vypadají téměř identicky – jako písmena “M” a “N” v znakovém jazyce. Výzkumníci pracují na tom, aby jejich systém chytil tyto jemné rozdíly ještě lépe. Jak Dr. Alsharif říká: “Je důležité, že výsledky této studie zdůrazňují nejen robustnost systému, ale také jeho potenciál pro použití v praktických, reálných aplikacích.”

Tým se nyní zaměřuje na:

  • Zajištění toho, aby systém fungoval hladce na běžných zařízeních
  • Učinění jej dostatečně rychlým pro reálné konverzace
  • Zajištění jeho spolehlivého fungování v libovolném prostředí

Děkan Stella Batalama z FAU College of Engineering and Computer Science sdílí větší vizi: “Zlepšením rozpoznávání amerického znakového jazyka tento výzkum přispívá k vytváření nástrojů, které mohou vylepšit komunikaci pro neslyšící a sluchově postiženou komunitu.”

Představte si, že vstupujete do ordinace lékaře nebo navštěvujete třídu, kde tato technologie mostí komunikační mezery okamžitě. To je skutečný cíl – vytvářet technologii, která skutečně pomáhá lidem spojit se. Bez ohledu na to, zda je to ve vzdělávání, zdravotnictví nebo každodenních rozhovorech, tento systém reprezentuje krok směrem ke světu, kde komunikační bariéry stále více mizí.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.