«Сбер» открывает доступ к датасету Golos
Это самый большой набор речевых данных на русском языке, размеченный вручную
«Сбер» открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных.
Также в Golos входит модель распознавания речи, которая демонстрирует точность, сравнимую с человеческой, сообщает пресс-служба банка.
Датасет можно скачать на сайте GitHub.
Данные Golos могут быть использованы для распознавания и синтеза речи. Сбер предоставит их по лицензии, допускающей использование в исследовательских и коммерческих целях.
Над датасетом работала команда SberDevices. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную.
Помимо данных, «Сбер» выкладывает обученную на них модель распознавания речи. Она проходила обучение с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos, заявили в банке.
Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в «Сбере» рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. <...> Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
Ранее глава Сбербанка Герман Греф заявил, что экосистема банка будет открытой для доступа к ней других участников.
Подписывайтесь на наш TG-канал, чтобы быть в курсе всех новостей и событий!
Фото на обложке: bxTT /
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Тренды «Пухосос купить»: как россияне поверили в фейк, а бренды — заработали на меме 11 июня 2026, 19:59
-
Технологии Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 09 июня 2026, 12:14
-
Искусственный интеллект Как подключить Яндекс Дропс и использовать все функции Алисы AI: полный обзор первых ИИ-наушников от Яндекса 09 июня 2026, 11:00
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Технологии Яндекс Фабрика выпустила полноразмерные наушники Commo Etude — цена начинается от 8 тыс. ₽ 16 июня 2026, 09:00
-
Тренды Россияне назвали профессии с неоправданно высокими зарплатами в 2026 году — лидируют политики и курьеры 15 июня 2026, 19:04
-
Россия Самозанятые получили возможность создавать публичные каналы в MAX — до этого функция была доступна юрлицам и ИП 15 июня 2026, 18:10
-
Бизнес Альфа-Банк подвёл итоги первой программы для импортёров: шесть компаний получили гранты по 1 млн ₽ 15 июня 2026, 18:01
-
Банки Все российские банки могут включить в «белые списки» осенью 2026 года — сейчас в перечне только 5 банков из 305 15 июня 2026, 17:00
-
Реклама Т-Банк будет использовать банковские данные клиентов при показе рекламы — юристы говорят о правовых рисках 10 июня 2026, 14:00
-
Технологии Видеоигры стали второй по величине категорией UGC-контента на RUTUBE —на платформе работает 50 тыс. игровых каналов 08 июня 2026, 13:00
-
Технологии Яндекс Карты добавили 120 тыс. отметок о доступности мест маломобильным людям: данные обновляет ИИ — автоматически 05 июня 2026, 20:42