Искусственный интеллект
Как ИИ делает распознавание языка жестов более точным, чем когда-либо

Когда мы думаем о разрушении коммуникативных барьеров, мы часто сосредотачиваемся на приложения для языкового перевода или голосовые помощники. Но для миллионов, использующих язык жестов, эти инструменты не совсем заполнили пробел. Язык жестов — это не только движения рук — это богатая, сложная форма общения, включающая выражения лица и язык тела, каждый элемент которой несет в себе важное значение.
Вот что делает это особенно сложным: в отличие от разговорных языков, которые в основном различаются по словарному запасу и грамматике, жестовые языки по всему миру принципиально отличаются тем, как они передают смысл. Например, американский язык жестов (ASL) имеет свою собственную уникальную грамматику и синтаксис, которые не соответствуют разговорному английскому.
Эта сложность означает, что создание технологии распознавания и перевода языка жестов в режиме реального времени требует понимания всей языковой системы в действии.
Новый подход к признанию
Именно здесь команда факультета инженерии и компьютерных наук Флоридского Атлантического университета (FAU) решила применить новый подход. Вместо того чтобы пытаться сразу охватить всю сложность языка жестов, они сосредоточились на освоении важнейшего первого шага: распознавании жестов американского жестового языка с беспрецедентной точностью с помощью искусственного интеллекта.
Представьте себе, что вы обучаете компьютер читать рукописный текст, но в трех измерениях и в движении. Команда создала нечто выдающееся: набор данных из 29,820 21 статических изображений, демонстрирующих жесты рук ASL. Но они не просто собирали фотографии. Они отметили каждое изображение XNUMX ключевой точкой на руке, создав подробную карту того, как руки двигаются и формируют различные знаки.
Доктор Бадер Альшариф, который руководил этим исследованием в качестве аспиранта, объясняет: «Этот метод не изучался в предыдущих исследованиях, что делает его новым и многообещающим направлением для будущих достижений».
Разбираем технологию
Давайте углубимся в комбинацию технологий, которые обеспечивают работу этой системы распознавания языка жестов.
MediaPipe и YOLOv8
Волшебство происходит благодаря бесшовной интеграции двух мощных инструментов: MediaPipe и YOLOv8. Представьте себе MediaPipe как эксперта-наблюдателя за руками — опытного переводчика языка жестов, который может отслеживать каждое едва заметное движение пальцев и положение руки. Исследовательская группа выбрала MediaPipe специально за его исключительную способность обеспечивать точное отслеживание ориентиров руки, определяя 21 точную точку на каждой руке, как мы уже упоминали выше.
Но отслеживания недостаточно — нам нужно понять, что означают эти движения. Вот тут-то и появляется YOLOv8. YOLOv8 — эксперт по распознаванию образов, который берет все эти отслеживаемые точки и выясняет, какую букву или жест они представляют. Исследование показывает, что когда YOLOv8 обрабатывает изображение, он делит его на сетку S × S, причем каждая ячейка сетки отвечает за обнаружение объектов (в данном случае жестов рук) в пределах ее границ.

Альшариф и др., Franklin Open (2024)
Как на самом деле работает система
Этот процесс более сложен, чем может показаться на первый взгляд.
Вот что происходит за кулисами:
Стадия обнаружения руки
Когда вы делаете знак, MediaPipe сначала идентифицирует вашу руку в кадре и отображает эти 21 ключевую точку. Это не просто случайные точки — они соответствуют определенным суставам и ориентирам на вашей руке, от кончиков пальцев до основания ладони.
Пространственный анализ
Затем YOLOv8 берет эту информацию и анализирует ее в режиме реального времени. Для каждой ячейки сетки на изображении он предсказывает:
- Вероятность присутствия жеста рукой
- Точные координаты места жеста
- Оценка достоверности его прогноза
классификация
Система использует так называемое «прогнозирование ограничивающего прямоугольника» — представьте, что вы рисуете идеальный прямоугольник вокруг своего жеста рукой. YOLOv8 вычисляет пять важных значений для каждого прямоугольника: координаты x и y для центра, ширина, высота и показатель уверенности.

Альшариф и др., Franklin Open (2024)
Почему эта комбинация работает так хорошо
Исследовательская группа обнаружила, что, объединив эти технологии, они создали нечто большее, чем просто сумма компонентов. Точное отслеживание MediaPipe в сочетании с передовой технологией обнаружения объектов YOLOv8 дало удивительно точные результаты — речь идёт о 98% точности и 99% оценке F1.
Что делает это особенно впечатляющим, так это то, как система справляется со сложностью языка жестов. Некоторые знаки могут выглядеть очень похожими для нетренированного глаза, но система может заметить тонкие различия.
Рекордные результаты
Когда исследователи разрабатывают новую технологию, всегда возникает главный вопрос: «Насколько хорошо она на самом деле работает?» Для этой системы распознавания языка жестов результаты впечатляют.
Команда FAU подвергла свою систему тщательному тестированию, и вот что они обнаружили:
- Система правильно распознает знаки в 98% случаев.
- Он улавливает 98% всех знаков, сделанных перед ним.
- Общий показатель производительности достигает впечатляющих 99%
«Результаты нашего исследования демонстрируют способность нашей модели точно распознавать и классифицировать жесты американского языка жестов с очень малым количеством ошибок», — объясняет Альшариф.
Система отлично работает в повседневных ситуациях — при разном освещении, разных положениях рук и даже при использовании жестов разными людьми.
Этот прорыв расширяет границы возможностей распознавания языка жестов. Предыдущие системы испытывали трудности с точностью, но, объединив отслеживание рук MediaPipe с возможностями обнаружения YOLOv8, исследовательская группа создала нечто особенное.
«Успех этой модели во многом обусловлен тщательной интеграцией трансферного обучения, тщательной разработкой набора данных и точной настройкой», — говорит Мохаммад Ильяс, один из соавторов исследования. Такое внимание к деталям окупилось выдающейся производительностью системы.
Что это значит для коммуникации
Успех этой системы открывает захватывающие возможности сделать общение более доступным и инклюзивным.
Команда не останавливается только на распознавании букв. Следующая серьёзная задача — научить систему понимать ещё более широкий спектр форм рук и жестов. Вспомните те моменты, когда знаки выглядят почти одинаково, например, буквы «M» и «N» в языке жестов. Исследователи работают над тем, чтобы их система ещё лучше улавливала эти едва заметные различия. Как говорит доктор Альшариф: «Важно, что результаты этого исследования подчёркивают не только надёжность системы, но и её потенциал для практического использования в режиме реального времени».
В настоящее время команда сосредоточена на:
- Обеспечение бесперебойной работы системы на обычных устройствах
- Достаточно быстро для реальных разговоров
- Обеспечение надежной работы в любых условиях
Декан Стелла Баталама из Колледжа инженерии и компьютерных наук FAU делится более широким видением: «Эта работа способствует улучшению распознавания американского языка жестов, создавая инструменты, которые могут улучшить коммуникацию для глухих и слабослышащих людей».
Представьте себе, что вы заходите в кабинет врача или посещаете занятия, где эта технология мгновенно устраняет коммуникативные барьеры. Именно в этом и заключается настоящая цель — сделать повседневное взаимодействие более плавным и естественным для всех участников. Речь идёт о создании технологии, которая действительно помогает людям общаться. Будь то образование, здравоохранение или повседневное общение, эта система — шаг к миру, где коммуникационные барьеры становятся всё менее заметными.