Новости / Искусственный интеллект

«ВКонтакте» усовершенствовала технологию распознавания голосовых сообщений

Прочитать расшифровку голосового сообщения теперь быстрее, чем прослушать аудио

27 ноября 2020, 16:35

«ВКонтакте» усовершенствовала технологию распознавания голосовых сообщений

«ВКонтакте» сократила время расшифровки аудиосообщений. О возможностях новых алгоритмов распознавания Rusbase рассказали в пресс-службе соцсети.

За понимание речи, в том числе русскоязычного сленга, отвечает нейросеть, созданная командой исследований «ВКонтакте». Чтобы перевод в текст продолжительных записей не сказывался на скорости расшифровки, разработчики нашли новое технологическое решение.

На распознавание записи до двух минут (это 99% всех аудио, которые отправляют пользователи «ВКонтакте»), теперь уйдет секунда, заверила команда разработчиков технологии.

«Алгоритмы Voice Activity Detection автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. При этом они умеют разделять запись, не разбивая слова на части, чтобы не искажать смысл сказанного», — пояснили в «ВКонтакте».

Фото: «ВКонтакте»

Распознавание голосовых сообщений полностью автоматизировано. Для обучения нейросетей используются аудио, которые специально для этой задачи записывают участники программы VK Testers.

Также появилась возможность записи голосовых сообщений длительностью до часа.

«ВКонтакте» запустила технологию распознавания в июне этого года. По данным соцсети, с этого момента аудитория, которая пользуется голосовыми сообщениями, увеличилась на 10% и составляет 33 млн человек в месяц. В среднем каждый пользователь сервиса читает 8 расшифровок в день.

Фото: sub job / Shutterstock

Авторы