27 августа 2025Пресс-релизы

VK представила датасет для развития рекомендательных систем

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными.

Датасет включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео за шесть месяцев (январь-июнь 2025) в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения.

Все данные представлены в формате числовых идентификаторов, что обеспечивает полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя предоставлены социально-демографические характеристики. Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент.

Короткие видео – уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью.

«Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое. VK-LSVD  — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных. Мы планируем развивать датасет, и уже совсем скоро проведем открытое соревнование для инженеров», – отметил Дмитрий Кондрашкин, директор по AI в VK.

Вместо деления на фиксированные размеры датасета, VK-LSVD позволяет гибко настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объём данных, выбрать, как именно их отбирать — случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.

Датасет доступен по ссылке: https://huggingface.co/datasets/deepvk/VK-LSVD

Поделиться