Новости / IT

40 млрд реакций пользователей в открытом доступе: VK представила свежий датасет для рекомендательных систем

VK открыла датасет из 40 млрд реакций зрителей на видео

Дарья Крестьянинова
Текст:
29 августа 2025, 19:15

VK впервые выложила в открытый доступ собственный датасет для работы с рекомендательными алгоритмами. В базе VK-LSVD — 40 млрд взаимодействий пользователей с короткими видео за январь–июнь 2025 года: лайки, дизлайки, репосты, досмотры и даже время просмотра. По оценке компании, это крупнейший публичный датасет в сегменте коротких видео и новый стандарт для исследователей и инженеров.

Внутри датасета

В VK-LSVD вошли данные о 10 млн пользователей и 20 млн коротких видео. Каждый пользователь описан обезличенными социально-демографическими характеристиками, а каждое видео — числовым «эмбеддингом» содержимого. При этом все данные представлены в формате ID, что исключает риск деанонимизации.

Фокус сделан именно на коротких видео — формате, который для рекомендательных систем уникален. В отличие от музыки или подкастов, ролики не потребляются в фоне: каждый просмотр рождает конкретный отклик, даже если это просто мгновенный скролл. Такой «чистый» сигнал делает датасет особенно ценным для обучения моделей.

Что говорит компания

В VK подчёркивают, что качественные рекомендательные системы невозможны без актуальных данных.

«Открытых датасетов в целом не много, а часть из них содержит устаревшие данные и не отражает реальные сценарии взаимодействия. Датасет VK-LSVD поможет ученым, инженерам и вузам преодолеть это ограничение и разрабатывать и тестировать алгоритмы в реалистичных условиях, а не на “игрушечных” выборках», — сообщили в пресс-службе VK.

В пресс-службе добавили, что VK-LSVD — вклад в развитие исследовательской среды. Уже этой осенью компания планирует провести открытое соревнование для инженеров, чтобы поддерживать и науку, и практическую работу с данными.

Взгляд индустрии

Михаил Каменщиков, руководитель команды рекомендаций Авито, считает релиз VK важным событием для рынка. По его словам, крупные компании крайне редко делятся промышленными датасетами, а 40 млрд взаимодействий во много раз превышают академические наборы. Это даёт возможность исследователям видеть закономерности поведения, которые невозможно заметить на маленьких выборках.

Особенно перспективным Каменщиков называет домен коротких видео: каждое действие пользователя несёт качественный сигнал о его интересах, в отличие от фонового потребления музыки или подкастов.

«Высокая частота взаимодействий и разнообразие контента позволяют исследовать алгоритмы рекомендаций в условиях интенсивного пользовательского поведения, а мультимодальная природа данных открывает возможности для изучения влияния визуального и аудиоконтента на предпочтения пользователей», — отметил Михаил Каменщиков из Авито.

Эксперт добавил, что сообщество до сих пор работает с устаревшими наборами вроде MovieLens, поэтому подобные релизы — большой вклад не столько в рабочие сервисы, сколько в науку.

«Исследовательское сообщество нуждается в актуальных данных, и доступ к информации реального сервиса с миллионами пользователей представляет качественно новый уровень для проведения исследований», — подытожил эксперт.

Гибкость для исследований

Отличие VK-LSVD в том, что датасет можно подстраивать под конкретные задачи. Команды сами выбирают объём выборки, критерии отбора и баланс между случайностью и популярностью. Это делает его универсальным: одинаково подходящим и для академических задач, и для промышленных экспериментов с миллионами пользователей.

В VK уверены, что даже несмотря на то, что данные собраны на базе коротких видео, их можно использовать для обучения моделей, применимых в других форматах — от музыки до новостных лент.

«Это делает датасет подходящим для разных форматов и широкого спектра задач специалистов и исследователей в области машинного обучения», — подчеркнули в компании.

Контекст

Появление VK-LSVD закрывает важный пробел: до этого у исследовательского сообщества практически не было больших открытых выборок с реальными пользовательскими данными в сегменте короткого видео. Для вузов и независимых команд это шанс работать с живыми данными, а для индустрии — способ быстрее обкатывать новые модели.

Подписывайтесь на наш Telegram-канал
Материалы по теме