«Яндекс» выложил в опенсорс масштабный датасет Yambda
Для улучшения рекомендательных систем
«Яндекс» открыл доступ к Yambda (Yandex music billion-interactions dataset) — одному из крупнейших в мире датасетов, предназначенных для разработки рекомендательных систем. Об этом Русбейс рассказали в компании.
Ресурс позволит ученым и исследователям со всего мира тестировать и совершенствовать алгоритмы рекомендаций. Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, а сокращенные — 500 млн и 50 млн записей, что дает возможность выбрать наиболее подходящий для конкретных задач вариант в зависимости от наличия вычислительных ресурсов. Данные доступны на HuggingFace, а код для их оценки — на GitHub.
«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты», — отмечает Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе». Он подчеркивает, что публикация больших открытых датасетов, таких как Yambda, устраняет разрыв между академическими исследованиями и потребностями бизнеса.
- Yambda создан на основе анонимизированных данных «Яндекс Музыки» и включает агрегированные прослушивания, лайки и дизлайки. Все пользовательские данные защищены, поскольку датасет содержит лишь числовые идентификаторы, что обеспечивает конфиденциальность и безопасность.
Фото на обложке: Miha Creative / Shutterstock / FOTODOM
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Бизнес «Малый бизнес драйвит всё»: как компании из Архангельска растут на терпении, связях и самоиронии 25 мая 2026, 18:03
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Технологии Уроки китайского единства 26 мая 2026, 13:27
-
Россия Запрет рекламы в Telegram: что важно знать маркетологам и бизнесу 23 мая 2026, 09:00
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Бизнес Командировки в 2026 году: как экономить на деловых поездках, не жертвуя комфортом сотрудников 13 мая 2026, 10:00
-
Россия В работе «Яндекс Диска» произошёл сбой 27 мая — пользователи не могут загрузить и скачать файлы 27 мая 2026, 16:12
-
Россия В России ограничили ввоз сразу нескольких брендов по параллельному импорту: среди них — Asus, Samsung и Oral-B 27 мая 2026, 20:15
-
Бизнес «Золотое Яблоко» открывает магазины мини-формата по всей России — первый появится в Ставрополе 27 мая 2026, 19:39
-
Банки Сбер запустил сервис для безопасной покупки авто с пробегом — но пока купить машину можно только в кредит 27 мая 2026, 19:15
-
Тренды ИИ вытесняет «белых воротничков»: конкуренция за рабочие места у топ-менеджеров оказалась выше, чем у сварщиков 27 мая 2026, 18:00
-
Бизнес Яндекс Go запускает аренду катеров в Санкт-Петербурге — забронировать прогулку по рекам можно прямо в приложении 27 мая 2026, 17:25
-
Россия Понятие каршеринга хотят закрепить в законодательстве — это унифицирует правила парковки и проверки прав в регионах 26 мая 2026, 14:40
-
Реклама 76% медиаресурсов не смогут работать без рекламных доходов — большинство россиян не готовы платить за контент 26 мая 2026, 12:00