USD 80.33 ЕВРО 94.05

ИИ в «VK Видео» сделал автоматическое распознавание речи точнее на 25%

Технологии

На платформе «VK Видео» внедрены новые алгоритмы искусственного интеллекта, предназначенные для автоматического распознавания речи и синтеза субтитров для различных типов контента — от роликов и шоу до клипов и других материалов. Эти алгоритмы позволили улучшить точность анализа и расшифровки на 25%. Нейросети теперь освоили тысячи новых слов, включая имена собственные, мемы, профессиональные термины и акронимы.

Для генерации автоматических субтитров используются машинные модели (ML), которые отвечают за создание текста, расстановку знаков препинания и синхронизацию с видео. Процесс обработки аудиопотока предполагает несколько этапов, направленных на повышение точности. Нейросеть сначала удаляет фоновые шумы, затем распознает речь и преобразует ее в текст.

Затем в работу вступают модели пунктуации и денормализации, которые формируют легко читаемый текст из набора распознанных слов. На следующем этапе осуществляется синхронизация текста с аудиодорожкой, что также выполняется искусственным интеллектом. Все эти шаги делают субтитры понятными как в любительских, так и в профессиональных видео.

Субтитры имеют большую популярность среди пользователей «VK Видео». Эта функция востребована не только людьми с нарушениями слуха, но и теми, кто по каким-либо причинам пока не может включить звук при просмотре. За последний месяц доля пользователей, применяющих субтитры в веб-версии, увеличилась на 28%. Сегодня субтитры являются неотъемлемой частью видео для 11% всей аудитории платформы «VK Видео».

Источник: CNews