«VK Видео» достиг 25% улучшения точности распознавания речи посредством ИИ

Платформа «VK Видео» очень активно применяет технологии искусственного интеллекта. На 25 % точность автоматического распознавания речи и создания субтитров для роликов, шоу, клипов и другого контента позволило улучшить внедрение новых алгоритмов. Это заметно повысило точность анализа и расшифровки.
Качество распознавания также улучшилось благодаря тому, что нейросети освоили тысячи слов, включая профессиональные термины, акронимы, имена собственные и даже мемы. Очень скоро ИИ будет способен разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров.
Для автоматического формирования субтитров используются ML-модели, которые не только создают текст, но и расставляют знаки препинания и синхронизируют результат с видео. Чтобы обеспечить максимальную точность, аудиопоток обрабатывается в несколько этапов. На первом этапе удаляются посторонние шумы, распознается речь и преобразуется в текст. На втором этапе модели пунктуации и денормализации превращают набор распознанных слов в легко читаемый текст. На третьем этапе текст синхронизируется с аудиодорожкой. Эта технология позволяет создавать понятные и корректные субтитры как для профессиональных видео, так и для любительских роликов.
За последний месяц функция субтитров в веб-версии стала использоваться на 28 % активнее. На текущий момент субтитрами пользуются 11 % аудитории «VK Видео».
Источник: CNews