VK Видео улучшает пользовательский опыт с помощью умных субтитров
Команда VK Видео в 10 раз увеличила объём видео с субтитрами и повысила точность обработки расшифровки речи. Благодаря этому просмотр видео стал ещё удобнее — речь говорящего оформляется в текстовые субтитры в виде предложений со знаками препинания и заглавными буквами с учётом особенностей разговорной, узкоспециализированной лексики и неологизмов.
В ленте пользователя на главном экране 8 из 10 видео будут с новыми субтитрами. Автоматические субтитры в VK Видео генерируют ML-модели. Аудиопоток из видео проходит через несколько этапов обработки. Сначала нейросеть убирает посторонние шумы, выделяет речь и преобразует её в слова, а другие модели превращают расшифровку в текст. Финальный AI синхронизирует получившийся текст с аудиодорожкой. AI-модель допускает на 30% ошибок меньше, чем аналогичные модели генерации субтитров в подобных сервисах.
Технология работает как в профессиональных роликах, так и в пользовательском контенте. Она полезна людям с нарушениями слуха и в ситуациях, когда, например, включать звук в видео нежелательно.