40 млрд реакций пользователей в открытом доступе: VK представила свежий датасет для рекомендательных систем
VK открыла датасет из 40 млрд реакций зрителей на видео
VK впервые выложила в открытый доступ собственный датасет для работы с рекомендательными алгоритмами. В базе VK-LSVD — 40 млрд взаимодействий пользователей с короткими видео за январь–июнь 2025 года: лайки, дизлайки, репосты, досмотры и даже время просмотра. По оценке компании, это крупнейший публичный датасет в сегменте коротких видео и новый стандарт для исследователей и инженеров.
Внутри датасета
В VK-LSVD вошли данные о 10 млн пользователей и 20 млн коротких видео. Каждый пользователь описан обезличенными социально-демографическими характеристиками, а каждое видео — числовым «эмбеддингом» содержимого. При этом все данные представлены в формате ID, что исключает риск деанонимизации.
Фокус сделан именно на коротких видео — формате, который для рекомендательных систем уникален. В отличие от музыки или подкастов, ролики не потребляются в фоне: каждый просмотр рождает конкретный отклик, даже если это просто мгновенный скролл. Такой «чистый» сигнал делает датасет особенно ценным для обучения моделей.
Что говорит компания
В VK подчёркивают, что качественные рекомендательные системы невозможны без актуальных данных.
«Открытых датасетов в целом не много, а часть из них содержит устаревшие данные и не отражает реальные сценарии взаимодействия. Датасет VK-LSVD поможет ученым, инженерам и вузам преодолеть это ограничение и разрабатывать и тестировать алгоритмы в реалистичных условиях, а не на “игрушечных” выборках», — сообщили в пресс-службе VK.
В пресс-службе добавили, что VK-LSVD — вклад в развитие исследовательской среды. Уже этой осенью компания планирует провести открытое соревнование для инженеров, чтобы поддерживать и науку, и практическую работу с данными.
Взгляд индустрии
Михаил Каменщиков, руководитель команды рекомендаций Авито, считает релиз VK важным событием для рынка. По его словам, крупные компании крайне редко делятся промышленными датасетами, а 40 млрд взаимодействий во много раз превышают академические наборы. Это даёт возможность исследователям видеть закономерности поведения, которые невозможно заметить на маленьких выборках.
Особенно перспективным Каменщиков называет домен коротких видео: каждое действие пользователя несёт качественный сигнал о его интересах, в отличие от фонового потребления музыки или подкастов.
«Высокая частота взаимодействий и разнообразие контента позволяют исследовать алгоритмы рекомендаций в условиях интенсивного пользовательского поведения, а мультимодальная природа данных открывает возможности для изучения влияния визуального и аудиоконтента на предпочтения пользователей», — отметил Михаил Каменщиков из Авито.
Эксперт добавил, что сообщество до сих пор работает с устаревшими наборами вроде MovieLens, поэтому подобные релизы — большой вклад не столько в рабочие сервисы, сколько в науку.
«Исследовательское сообщество нуждается в актуальных данных, и доступ к информации реального сервиса с миллионами пользователей представляет качественно новый уровень для проведения исследований», — подытожил эксперт.
Гибкость для исследований
Отличие VK-LSVD в том, что датасет можно подстраивать под конкретные задачи. Команды сами выбирают объём выборки, критерии отбора и баланс между случайностью и популярностью. Это делает его универсальным: одинаково подходящим и для академических задач, и для промышленных экспериментов с миллионами пользователей.
В VK уверены, что даже несмотря на то, что данные собраны на базе коротких видео, их можно использовать для обучения моделей, применимых в других форматах — от музыки до новостных лент.
«Это делает датасет подходящим для разных форматов и широкого спектра задач специалистов и исследователей в области машинного обучения», — подчеркнули в компании.
Контекст
Появление VK-LSVD закрывает важный пробел: до этого у исследовательского сообщества практически не было больших открытых выборок с реальными пользовательскими данными в сегменте короткого видео. Для вузов и независимых команд это шанс работать с живыми данными, а для индустрии — способ быстрее обкатывать новые модели.
- 1 Ранее до 57% звонков — подозрительные: мессенджер МАХ подключил антифрод-систему для защиты от мошенников МАХ внедрил защиту от мошенников с помощью Сбера и Kaspersky 27 августа 2025, 13:57
- 2 Выручка выросла почти вдвое, прибыль не изменилась — 1,8 млрд ₽: Selectel отчиталась о финансах в первом полугодии Отчет Selectel о финансах в 2025-м: выручка выросла на 46% 26 августа 2025, 15:05
- 3 600 млн ₽ и 3500 кибератак: мошенники нашли новый путь к банковским счетам — через детей Мошенники в 2025-м совершили 3500 кибератак через детей 26 августа 2025, 11:21
- 4 Минуты вместо километров: Яндекс Карты запускают API для расчёта времени доставки Яндекс Карты — обновление-2025: добавили опцию для бизнеса 20 августа 2025, 11:30