«Яндекс» выложил в опенсорс масштабный датасет Yambda
Для улучшения рекомендательных систем
«Яндекс» открыл доступ к Yambda (Yandex music billion-interactions dataset) — одному из крупнейших в мире датасетов, предназначенных для разработки рекомендательных систем. Об этом Русбейс рассказали в компании.
Ресурс позволит ученым и исследователям со всего мира тестировать и совершенствовать алгоритмы рекомендаций. Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, а сокращенные — 500 млн и 50 млн записей, что дает возможность выбрать наиболее подходящий для конкретных задач вариант в зависимости от наличия вычислительных ресурсов. Данные доступны на HuggingFace, а код для их оценки — на GitHub.
«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты», — отмечает Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе». Он подчеркивает, что публикация больших открытых датасетов, таких как Yambda, устраняет разрыв между академическими исследованиями и потребностями бизнеса.
- Yambda создан на основе анонимизированных данных «Яндекс Музыки» и включает агрегированные прослушивания, лайки и дизлайки. Все пользовательские данные защищены, поскольку датасет содержит лишь числовые идентификаторы, что обеспечивает конфиденциальность и безопасность.
Фото на обложке: Miha Creative / Shutterstock / FOTODOM
-
Партнёрский материал Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 16 июня 2026, 15:52
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Технологии Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 09 июня 2026, 12:14
-
Бизнес Музыкальный бизнес в России в 2026-м: как ИИ и новые законы меняют рынок 19 июня 2026, 18:30
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Бизнес Как бренд пазлов «Харди Гарди» получил рекламу у блогера-миллионника, просто рассказав о своём проекте 05 июня 2026, 14:23
-
Тренды «Пухосос купить»: как россияне поверили в фейк, а бренды — заработали на меме 11 июня 2026, 19:59
-
Искусственный интеллект Как подключить Яндекс Дропс и использовать все функции Алисы AI: полный обзор первых ИИ-наушников от Яндекса 09 июня 2026, 11:00
-
Технологии UMO впервые возглавил рынок электромобилей в России — на бренд пришлось 35% продаж в мае 2026-го 19 июня 2026, 14:42
-
Бизнес Покупательская способность сократилась — без льготной ипотеки россияне могут позволить себе лишь 15 кв. м жилья 19 июня 2026, 21:30
-
Маркетплейсы Яндекс Маркет снизил комиссию для продавцов одежды и обуви — ставка упала более чем втрое 19 июня 2026, 20:45
-
Маркетплейсы Wildberries может открыть премиальный ПВЗ в торговом центре — пункт выдачи будет похож на полноценный магазин 19 июня 2026, 19:15
-
Банки Приоритет ЦБ — борьба с инфляцией: эксперты объяснили решение снизить ключевую ставку всего на 0,25 пунктов 19 июня 2026, 18:45
-
Россия В России стартовали продажи автомобилей Volga — цены начинаются от 2,75 млн рублей 19 июня 2026, 16:05
-
Искусственный интеллект Конференция Conversations от Just AI в Петербурге: VK, Wildberries и другие расскажут, как зарабатывают на ИИ 16 июня 2026, 15:36
-
Реклама Т-Банк будет использовать банковские данные клиентов при показе рекламы — юристы говорят о правовых рисках 10 июня 2026, 14:00