«Яндекс» выложил в опенсорс масштабный датасет Yambda
Для улучшения рекомендательных систем
«Яндекс» открыл доступ к Yambda (Yandex music billion-interactions dataset) — одному из крупнейших в мире датасетов, предназначенных для разработки рекомендательных систем. Об этом Русбейс рассказали в компании.
Ресурс позволит ученым и исследователям со всего мира тестировать и совершенствовать алгоритмы рекомендаций. Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, а сокращенные — 500 млн и 50 млн записей, что дает возможность выбрать наиболее подходящий для конкретных задач вариант в зависимости от наличия вычислительных ресурсов. Данные доступны на HuggingFace, а код для их оценки — на GitHub.
«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты», — отмечает Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе». Он подчеркивает, что публикация больших открытых датасетов, таких как Yambda, устраняет разрыв между академическими исследованиями и потребностями бизнеса.
- Yambda создан на основе анонимизированных данных «Яндекс Музыки» и включает агрегированные прослушивания, лайки и дизлайки. Все пользовательские данные защищены, поскольку датасет содержит лишь числовые идентификаторы, что обеспечивает конфиденциальность и безопасность.
Фото на обложке: Miha Creative / Shutterstock / FOTODOM
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Деньги Онлайн-инкассация: как превратить наличную выручку в рабочий капитал 01 июня 2026, 10:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Тренды Загородный рынок — 2026: тренды, цены и возможности для покупателей и инвесторов 03 июня 2026, 12:16
-
Бизнес «Малый бизнес драйвит всё»: как компании из Архангельска растут на терпении, связях и самоиронии 25 мая 2026, 18:03
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Искусственный интеллект Книга «Дикие ягодки», первый в мире ИИ-терминал и главная проблема российской экономики: итоги ПМЭФ–2026 06 июня 2026, 08:00
-
Искусственный интеллект Выступление Владимира Путина и новые правила для маркетплейсов: главные события и тезисы третьего дня ПМЭФ–2026 05 июня 2026, 22:00
-
Технологии Яндекс Карты добавили 120 тыс. отметок о доступности мест маломобильным людям: данные обновляет ИИ — автоматически 05 июня 2026, 20:42
-
Искусственный интеллект Anthropic предложила ИТ-компаниям приостановить разработку ИИ — эксперты опасаются потери контроля над нейросетями 05 июня 2026, 20:06
-
Искусственный интеллект Развитие ИИ затронет 60% профессий — каждая десятая специальность может исчезнуть с рынка труда 05 июня 2026, 21:26
-
Бизнес С 16 по 19 июня пройдёт форум недвижимости «Движение» — в 2026 году его впервые посетят не только девелоперы 05 июня 2026, 19:07
-
Технологии Минцифры предложило ввести аренду самокатов по биометрии — систему протестируют в «Сириусе» 05 июня 2026, 15:15
-
Технологии Средний чек на вычислительные мощности для ИИ в России вырос на 64% — до 2,3 млн ₽ в месяц 04 июня 2026, 20:10