«Сбер» открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных.
Также в Golos входит модель распознавания речи, которая демонстрирует точность, сравнимую с человеческой, сообщает пресс-служба банка.
Датасет можно скачать на сайте GitHub.
Данные Golos могут быть использованы для распознавания и синтеза речи. Сбер предоставит их по лицензии, допускающей использование в исследовательских и коммерческих целях.
Над датасетом работала команда SberDevices. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную.
Помимо данных, «Сбер» выкладывает обученную на них модель распознавания речи. Она проходила обучение с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos, заявили в банке.
Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в «Сбере» рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. <...> Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
Ранее глава Сбербанка Герман Греф заявил, что экосистема банка будет открытой для доступа к ней других участников.
Подписывайтесь на наш TG-канал, чтобы быть в курсе всех новостей и событий!
Фото на обложке: bxTT /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Личный опыт: как открыть магазин одежды»
- 1 Google решил защитить товарными знаками два новых сервиса в России
- 2 Как записать подкаст и сделать его успешным
- 3 Победители премии RB Digital Awards 2024 станут героями видеоподкаста
- 4 Подкаст Kotelov digital finance с победителями премии RB Digital Awards 2024
ВОЗМОЖНОСТИ
08 декабря 2024
09 декабря 2024
10 декабря 2024