Как ИИ делает распознавание языка жестов более точным, чем когда-либо

Бадер Альшариф, первый автор и доктор философии. кандидат (FAU)

Когда мы думаем о разрушении коммуникационных барьеров, мы часто сосредотачиваемся на приложениях для языкового перевода или голосовых помощниках. Но для миллионов людей, использующих язык жестов, эти инструменты не совсем восполнили этот разрыв. Язык жестов — это не только движения рук – это богатая, сложная форма общения, которая включает в себя мимику и язык тела, каждый элемент несет решающее значение.

Вот что делает это особенно сложным: в отличие от разговорных языков, которые в основном различаются по словарному запасу и грамматике, языки жестов во всем мире фундаментально различаются по тому, как они передают смысл. Американский язык жестов (ASL), например, имеет свою уникальную грамматику и синтаксис, не соответствующие разговорному английскому языку.

Эта сложность означает, что создание технологии распознавания и перевода языка жестов в режиме реального времени требует понимания всей языковой системы в движении.

Новый подход к признанию

Именно здесь команда Колледжа инженерии и компьютерных наук Атлантического университета Флориды (FAU) решила применить новый подход. Вместо того, чтобы попытаться решить всю сложность языка жестов одновременно, они сосредоточились на освоении решающего первого шага: распознавании жестов алфавита ASL с беспрецедентной точностью с помощью искусственного интеллекта.

Думайте об этом как об обучении компьютера чтению почерка, но в трех измерениях и в движении. Команда создала нечто замечательное: набор данных из 29 820 статических изображений, показывающих жесты рук ASL. Но они не просто собирали картинки. Они пометили каждое изображение 21 ключевой точкой на руке, создав подробную карту того, как движутся руки и формируют разные знаки.

Доктор. Бадер Альшариф, который руководил этим исследованием в качестве доктора философии. кандидат, объясняет: “Этот метод не исследовался в предыдущих исследованиях, что делает его новым и многообещающим направлением для будущих достижений.”

Разрушение технологии

Давайте погрузимся в сочетание технологий, благодаря которым эта система распознавания языка жестов работает.

МедиаПайп и YOLOv8

Магия происходит за счет плавной интеграции двух мощных инструментов: MediaPipe и YOLOv8. Думайте о MediaPipe как об экспертном наблюдателе за руками –, опытном переводчике языка жестов, который может отслеживать каждое тонкое движение пальцев и положение рук. Исследовательская группа выбрала MediaPipe специально из-за его исключительной способности обеспечивать точное отслеживание ориентиров руки, определяя 21 точную точку на каждой руке, как мы упоминали выше.

Но отслеживания недостаточно – нам нужно понять, что означают эти движения. Именно здесь на помощь приходит YOLOv8. YOLOv8 — эксперт по распознаванию образов, который берет все эти отслеживаемые точки и выясняет, какую букву или жест они представляют. Исследование показывает, что когда YOLOv8 обрабатывает изображение, он делит его на сетку S × S, при этом каждая ячейка сетки отвечает за обнаружение объектов (в данном случае жестов рук) в его границах.

Альшариф и др., Franklin Open (2024)

Как на самом деле работает система

Процесс более изощрен, чем может показаться на первый взгляд.

Вот что происходит за кулисами:

Этап обнаружения рук

Когда вы делаете знак, MediaPipe сначала идентифицирует вашу руку в рамке и отображает эту 21 ключевую точку. Это не просто случайные точки – они соответствуют определенным суставам и ориентирам на вашей руке, от кончиков пальцев до основания ладони.

Пространственный анализ

Затем YOLOv8 берет эту информацию и анализирует ее в режиме реального времени. Для каждой ячейки сетки на изображении прогнозируется

  • Вероятность присутствия жеста руки
  • Точные координаты места действия жеста
  • Оценка достоверности его прогноза

Классификация

Система использует что-то, называемое “bounding box pregiction” – представить рисование идеального прямоугольника вокруг вашего жеста руки. YOLOv8 вычисляет пять важнейших значений для каждого поля: координаты x и y для центра, ширины, высоты и показатель достоверности.

Альшариф и др., Franklin Open (2024)

Почему эта комбинация работает так хорошо

Исследовательская группа обнаружила, что, объединив эти технологии, они создали нечто большее, чем сумма его частей. Точное отслеживание MediaPipe в сочетании с усовершенствованным обнаружением объектов YOLOv8 дало удивительно точные результаты. – мы говорим о точности 98% и показателе F1 99%.

Что делает это особенно впечатляющим, так это то, как система справляется со сложностью языка жестов. Некоторые признаки могут быть очень похожи на неподготовленные глаза, но система может обнаруживать тонкие различия.

Рекордные результаты

Когда исследователи разрабатывают новую технологию, большой вопрос всегда: “Насколько хорошо она на самом деле работает?” Для этой системы распознавания языка жестов результаты впечатляют.

Команда FAU провела тщательное тестирование своей системы, и вот что они обнаружили:

    Система правильно идентифицирует знаки в 98% случаев
  • Он улавливает 98% всех знаков, сделанных перед ним
  • Общий балл производительности достигает впечатляющих 99%

“Результаты нашего исследования демонстрируют способность нашей модели точно обнаруживать и классифицировать жесты американского языка жестов с очень небольшим количеством ошибок, — объясняет Альшариф.

Система хорошо работает в повседневных ситуациях – разное освещение, различные положения рук и даже с разными людьми, подписывающими.

Этот прорыв раздвигает границы возможного в распознавании языка жестов. Предыдущие системы боролись с точностью, но, объединив отслеживание рук MediaPipe с возможностями обнаружения YOLOv8, исследовательская группа создала нечто особенное.

“Успех этой модели во многом обусловлен тщательной интеграцией трансферного обучения, тщательным созданием набора данных и точной настройкой,” говорит Мохаммад Ильяс, один из соавторов исследования. Это внимание к деталям отразилось на замечательных характеристиках системы.

Что это означает для общения

Успех этой системы открывает захватывающие возможности для того, чтобы сделать общение более доступным и инклюзивным.

Команда не останавливается на том, чтобы просто распознать буквы. Следующая большая задача — научить систему понимать еще более широкий спектр форм рук и жестов. Подумайте о тех моментах, когда знаки выглядят почти идентично – как буквы ‘M’ и ‘N’ на языке жестов. Исследователи работают над тем, чтобы помочь своей системе еще лучше уловить эти тонкие различия. Как выразился д-р Альшариф: “Важно отметить, что результаты этого исследования подчеркивают не только надежность системы, но и ее потенциал для использования в практических приложениях реального времени.”

Сейчас команда делает упор на

    Обеспечение бесперебойной работы системы на обычных устройствах
  • Сделать его достаточно быстрым для реальных разговоров
  • Обеспечение надежной работы в любой среде

Декан Стелла Баталама (Stella Batalama) из инженерного и компьютерного колледжа FAU разделяет более широкое видение: “Улучшая распознавание американского языка жестов, эта работа способствует созданию инструментов, которые могут улучшить общение для глухих и слабослышащих сообществ.”

Представьте себе, что вы заходите в кабинет врача или посещаете занятия, где эта технология мгновенно устраняет пробелы в общении. Это настоящая цель здесь – сделать ежедневное взаимодействие более плавным и естественным для всех участников. Это создание технологий, которые действительно помогают людям общаться. Будь то образование, здравоохранение или повседневные разговоры, эта система представляет собой шаг к миру, в котором коммуникационные барьеры продолжают уменьшаться.

+ There are no comments

Add yours