Штучний інтелект
Як штучний інтелект робить розпізнавання мови жестів більш точним, ніж будь-коли

Коли ми думаємо про подолання комунікативних бар’єрів, ми часто зосереджуємося на застосунках для перекладу мови або голосових помічниках. Але для мільйонів людей, які використовують мову жестів, ці інструменти не зовсім звузили розрив. Мова жестів не лише полягає в рухах рук – це багата, складна форма спілкування, яка включає міміку та мову тіла, кожен елемент якої несе важливе значення.
Ось що робить це особливо складним: на відміну від усної мови, яка в основному відрізняється лексикою та граматикою, мови жестів у світі суттєво відрізняються тим, як вони передають значення. Американська мова жестів (ASL), наприклад, має свою унікальну граматику та синтаксис, які не збігаються з усною англійською.
Ця складність означає, що створення технології для розпізнавання та перекладу мови жестів у реальному часі вимагає розуміння цілої мовної системи в русі.
Новий підхід до розпізнавання
Саме тут команда з Університету Флориди-Атлантики (FAU) вирішила застосувати новий підхід. Замість того, щоб намагатися впоратися з усією складністю мови жестів одразу, вони зосередилися на освоєнні важливого першого кроку: розпізнаванні жестів алфавіту ASL з безпрецедентною точністю за допомогою штучного інтелекту.
Погляньте на це, як на навчання комп’ютера читати рукописний текст, але в трьох вимірах і в русі. Команда створила щось видатне: набір даних із 29 820 статичних зображень, що показують жести рук ASL. Але вони не просто зібрали картинки. Вони позначили кожне зображення 21 ключовим точкам на руці, створивши детальну карту того, як руки рухаються та формують різні знаки.
Доктор Бадер Аль-Шариф, який очолював це дослідження як аспірант, пояснює: “Цей метод не був досліджений у попередніх дослідженнях, роблячи його новим і перспективним напрямком для майбутніх досягнень.”
Розбивка технології
Давайте глибше зануримося у поєднання технологій, які роблять цю систему розпізнавання мови жестів працездатною.
MediaPipe і YOLOv8
Чудо відбувається завдяки безшовній інтеграції двох потужних інструментів: MediaPipe і YOLOv8. Подумайте про MediaPipe як про експерта з спостереження за руками – кваліфікованого тлумача мови жестів, який може відстежувати кожен тонкий рух пальців і положення рук. Команда дослідження вибрала MediaPipe спеціально за його виняткову здатність забезпечувати точне відстежування орієнтації рук, ідентифікуючи 21 точну точку на кожній руці, як ми згадали вище.
Але відстежування недостатньо – нам потрібно зрозуміти, що означають ці рухи. Саме тут вступає в дію YOLOv8. YOLOv8 – це експерт із розпізнавання закономірностей, який бере всі ці відстежені точки та визначає, яку літеру або жест вони представляють. Дослідження показує, що коли YOLOv8 обробляє зображення, воно ділить його на сітку S × S, де кожна клітинка сітки відповідає за виявлення об’єктів (у цьому випадку, жестів рук) у своїх межах.

Alsharif et al., Franklin Open (2024)
Як система насправді працює
Процес більш складний, ніж може здатися на перший погляд.
Ось, що відбувається за лаштунками:
Стадія виявлення рук
Коли ви робите жест, MediaPipe спочатку ідентифікує вашу руку в кадрі та створює карту цих 21 ключових точок. Ці точки не просто випадкові – вони відповідають конкретним суглобам і орієнтаціям на вашій руці, від кінчиків пальців до основи долоні.
Просторовий аналіз
YOLOv8 потім бере цю інформацію та аналізує її в реальному часі. Для кожної клітинки сітки на зображенні воно передбачає:
- Ймовірність наявності жесту рук
- Точні координати розташування жесту
- Коефіцієнт впевненості свого прогнозу
Класифікація
Система використовує так зване “передбачення обмежувальної рамки” – уявіть, що ви малюєте ідеальну прямокутну рамку навколо вашого жесту рук. YOLOv8 обчислює п’ять важливих значень для кожної рамки: x і y координати центру, ширину, висоту та коефіцієнт впевненості.

Alsharif et al., Franklin Open (2024)
Чому це поєднання працює так добре
Команда дослідження виявила, що, поєднавши ці технології, вони створили щось більше, ніж сума його частин. Точне відстежування MediaPipe, поєднане з передовим виявленням об’єктів YOLOv8, дало надзвичайно точні результати – ми говоримо про рівень точності 98% та бал F1 99%.
Що робить це особливо вражаючим, так це те, як система обробляє складність мови жестів. Деякі знаки можуть看ати дуже схожими на не треновані очі, але система може помітити тонкі відмінності.
Рекордні результати
Коли дослідники розробляють нову технологію, велике питання завжди звучить так: “Як добре вона насправді працює?” Для цієї системи розпізнавання мови жестів результати вражаючі.
Команда в FAU пройшла свій systém через суворе тестування, і ось, що вони виявили:
- Система правильно ідентифікує знаки в 98% випадків
- Вона виявляє 98% всіх знаків, зроблених перед нею
- Загальний бал виконання сягає вражаючих 99%
“Результати нашого дослідження демонструють здатність нашої моделі точно визначати та класифікувати жести американської мови жестів з дуже少кими помилками”, пояснює Аль-Шариф.
Система працює добре в повсякденних ситуаціях – при різному освітленні, різних положеннях рук та навіть з різними людьми, які роблять жести.
Цей прорив розширює межі того, що можливо в розпізнаванні мови жестів. Попередні системи мали труднощі з точністю, але поєднавши відстежування рук MediaPipe з можливостями виявлення YOLOv8, команда дослідження створила щось особливе.
“Успіх цієї моделі в основному пояснюється ретельною інтеграцією передавання знань, ретельним створенням набору даних та точним налаштуванням”, каже Мохаммад Ільяс, один із співавторів дослідження. Ця увага до деталей окупилася в надзвичайних результатах системи.
Що це означає для спілкування
Успіх цієї системи відкриває цікаві можливості для того, щоб зробити спілкування більш доступним та інклюзивним.
Команда не зупиняється на розпізнаванні лише літер. Наступним великим викликом є навчання системи розуміти ще ширший спектр форм рук та жестів. Подумайте про ті моменти, коли знаки виглядають майже ідентично – як літери “М” і “Н” в мові жестів. Дослідники працюють над тим, щоб їхня система могла ще краще помітити ці тонкі відмінності. Як каже доктор Аль-Шариф: “Важливо, що результати цього дослідження підкреслюють не лише стійкість системи, але й її потенціал для використання в практичних, реальних застосуваннях”.
Команда зараз зосереджується на:
- Отриманні системи, щоб вона працювала гладко на звичайних пристроях
- Зробленні її достатньо швидкою для реальних розмов
- Забезпеченні її надійної роботи в будь-якому середовищі
Декан Стелла Баталама з коледжу інженерії та комп’ютерних наук FAU ділиться більшим баченням: “Поліпшення розпізнавання американської мови жестів це дослідження сприяє створенню інструментів, які можуть покращити спілкування для глухої та слабочуючої спільноти”.
Уявіть собі, як ви заходите до кабінету лікаря або відвідуєте клас, де ця технологія миттєво подолає комунікативні бар’єри. Саме це є справжньою метою – зробити щоденні взаємодії більш гладкими та природними для всіх учасників. Це створення технології, яка насправді допомагає людям зв’язуватися. Чи то в освіті, охороні здоров’я чи щоденних розмовах, ця система представляє крок до світу, де комунікативні бар’єри продовжують зменшуватися.












