HandReader
Мы представляем HandReader — инновационное открытое решение для распознавания дактильной
речи (fingerspelling) на английском и русском языках, нацелено на доступность коммуникации для
глухих и слабослышащих.
Мы разработали три архитектуры — HandReaderRGB, HandReaderKP и HandReaderRGB+KP, — которые
используют разные модальности: видео RGB, координаты ключевых точек (keypoints) и их комбинацию.
В RGB-версии мы внедрили Temporal Shift-Adaptive Module (TSAM) — модификацию классического TSM,
которая справляется с видео переменной длины без паддинга и срезов, сохраняя важные временные
зависимости. В keypoint-версии мы предложили Temporal Pose Encoder (TPE), который обрабатывает
последовательность координат как тензоры и извлекает пространственно-временные признаки.
Комбинированная модель объединяет оба подхода, усиливая слабые стороны каждой модальности.
Результаты и данные:
Наши модели достигают state-of-the-art на популярных англоязычных наборах данных ChicagoFSWild
и ChicagoFSWild+. Мы также собрали первый открытый непрерывный датасет для русского дактильного
языка — Znaki: более 37 000 видеозаписей, 1 593 уникальных фразы, разнообразие фоновых условий,
множество участников. На Znaki модeли демонстрируют высокую точность и согласованность.
Код, датасет и предобученные модели будут доступны открыто — любой желающий может воспроизвести,
дообучить или встроить наше решение.
Применения и потенциал:
• Онлайн-переводчик дактильной речи: пользователи могут загружать видео или вести трансляцию,
а система будет переводить жесты в текст в (практически) реальном времени.
• Обучение дактильному языку: сервис можно адаптировать как учебный инструмент для изучения
алфавита, практики, автоматической проверки.
• Интеграция в социальные услуги: стоматология, консультации, школа, публичные сервисы — там,
где нужен мост между жестовой и устной/текстовой речью.
• Открытый проект / социальная миссия: цель — сделать дактильный язык более доступным, развивать
инклюзивные технологии и дать инструмент сообществу глухих.