«Сбер» открывает доступ к датасету Golos
Это самый большой набор речевых данных на русском языке, размеченный вручную
«Сбер» открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных.
Также в Golos входит модель распознавания речи, которая демонстрирует точность, сравнимую с человеческой, сообщает пресс-служба банка.
Датасет можно скачать на сайте GitHub.
Данные Golos могут быть использованы для распознавания и синтеза речи. Сбер предоставит их по лицензии, допускающей использование в исследовательских и коммерческих целях.
Над датасетом работала команда SberDevices. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную.
Помимо данных, «Сбер» выкладывает обученную на них модель распознавания речи. Она проходила обучение с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos, заявили в банке.
Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в «Сбере» рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. <...> Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
Ранее глава Сбербанка Герман Греф заявил, что экосистема банка будет открытой для доступа к ней других участников.
Подписывайтесь на наш TG-канал, чтобы быть в курсе всех новостей и событий!
Фото на обложке: bxTT /
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Искусственный интеллект Экономика суверенитета: как финансовый сектор, промышленность и ретейл монетизируют новые технологии 28 апреля 2026, 17:00
-
Деньги Налоговый вычет через личный кабинет в 2026 году: пошаговая инструкция 24 апреля 2026, 21:57
-
Деньги Ключевая ставка ЦБ РФ в 2026 году: текущий показатель и как он влияет на экономику 23 апреля 2026, 20:19
-
Маркетинг Как брендам достучаться до зумеров: почему старые инструменты больше не работают и что делать 12 апреля 2026, 22:11
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Бизнес «Точно розовый?»: как Eburet из табурета-трансформера вырос в B2B-бренд, который заходит на рынок в 50 млрд ₽ 11 февраля 2026, 19:48
-
Деньги К 30 годам россияне накапливают 500 тыс. рублей на вкладах — при этом чаще других пользуются кредитами 04 мая 2026, 12:00
-
Бизнес Финдиректор Ozon Игорь Герасимов покидает компанию спустя 6 лет работы — он переходит в «Т-Технологии» 04 мая 2026, 11:20
-
Деньги В России начнут регулировать рынок криптовалют — эксперты предупреждают, что законопроект не избавит от серых схем 01 мая 2026, 19:00
-
Тренды Эксперты опровергли падение цен в новостройках на 30%: рынок недвижимости в стагнации — но не более 01 мая 2026, 13:00
-
Бизнес Выручка онлайн-кинотеатров в 2025 году выросла почти на 40% — подписки остаются главным источником дохода 01 мая 2026, 10:00
-
Карьера 89% россиян не против переработок за дополнительную плату: каждый третий готов работать сверхурочно ради идеи 30 апреля 2026, 20:00
-
Банки Состояние неопределённости и флоатеры вместо фикса: участники Альфа-Саммита — о рынке капитала в 2026 году 30 апреля 2026, 14:40
-
Банки В Москве проходит Альфа-Саммит — топ-менеджеры обсуждают ключевые вызовы бизнеса и экономики 28 апреля 2026, 10:00