Open-Source-трибуна на HighLoad++

HandReader

Мы представляем HandReader — инновационное открытое решение для распознавания дактильной речи (fingerspelling) на английском и русском языках, нацелено на доступность коммуникации для глухих и слабослышащих. Мы разработали три архитектуры — HandReaderRGB, HandReaderKP и HandReaderRGB+KP, — которые используют разные модальности: видео RGB, координаты ключевых точек (keypoints) и их комбинацию. В RGB-версии мы внедрили Temporal Shift-Adaptive Module (TSAM) — модификацию классического TSM, которая справляется с видео переменной длины без паддинга и срезов, сохраняя важные временные зависимости. В keypoint-версии мы предложили Temporal Pose Encoder (TPE), который обрабатывает последовательность координат как тензоры и извлекает пространственно-временные признаки. Комбинированная модель объединяет оба подхода, усиливая слабые стороны каждой модальности. Результаты и данные: Наши модели достигают state-of-the-art на популярных англоязычных наборах данных ChicagoFSWild и ChicagoFSWild+. Мы также собрали первый открытый непрерывный датасет для русского дактильного языка — Znaki: более 37 000 видеозаписей, 1 593 уникальных фразы, разнообразие фоновых условий, множество участников. На Znaki модeли демонстрируют высокую точность и согласованность. Код, датасет и предобученные модели будут доступны открыто — любой желающий может воспроизвести, дообучить или встроить наше решение. Применения и потенциал: • Онлайн-переводчик дактильной речи: пользователи могут загружать видео или вести трансляцию, а система будет переводить жесты в текст в (практически) реальном времени. • Обучение дактильному языку: сервис можно адаптировать как учебный инструмент для изучения алфавита, практики, автоматической проверки. • Интеграция в социальные услуги: стоматология, консультации, школа, публичные сервисы — там, где нужен мост между жестовой и устной/текстовой речью. • Открытый проект / социальная миссия: цель — сделать дактильный язык более доступным, развивать инклюзивные технологии и дать инструмент сообществу глухих.

Ссылка на проект 5 голосов