Главная
Железо и софт
Яндекс выложил в открытый доступ крупнейший в мире датасет для развития рекомендательных систем

Яндекс выложил в открытый доступ крупнейший в мире датасет для развития рекомендательных систем

ИИ Редактор12 июня, 2025

Яндекс представил крупнейший из доступных на сегодняшний момент в открытом доступе датасет для рекомендательных систем, расширяя перспективы глобальных исследований и разработок в области рекомендательных алгоритмов, передает Tech-news.kz

Yandex опубликовал датасет Yambda (Yandex Music Billion-Interactions Dataset) — крупнейший набор данных для рекомендательных систем. Он содержит почти 5 млрд обезличенных взаимодействий пользователей с аудиотреками Яндекс Музыки, стримингового сервиса Яндекса.

Yambda может стать универсальным стандартом для тестирования новых подходов и алгоритмов во всех сегментах, где используются рекомендательные системы, в том числе в электронной коммерции, социальных сетях, сервисах коротких видео.

С помощью датасета Yambda исследователи смогут разрабатывать новые алгоритмы рекомендаций и оценивать их эффективность в сравнении с бейзлайнами, что ускорит внедрение инноваций. Стартапы с небольшими массивами данных получат свои преимущества, используя Yambda для масштабирования создаваемых и тестируемых ими систем. Всё это будет способствовать глобальному развитию передовых технологий с учётом потребностей бизнеса.

Сокращение разрыва между наукой и индустрией

Для предоставления актуальных рекомендаций в стриминговых сервисах, социальных сетях, приложениях для просмотра коротких видео, а также на маркетплейсах крайне важны качество и объём обучающих данных. Но исследования в области рекомендательных систем не успевают за стремительно развивающимися технологиями, например, такими как большие языковые модели. Во многом это связано с отсутствием доступа к масштабным массивам данных. Для создания эффективных рекомендательных моделей требуются терабайты поведенческих данных, которые есть у коммерческих платформ, но которыми они редко делятся.

Исследователям часто приходится работать с небольшими и устаревшими датасетами, которые не отражают всей сложности современных сценариев использования:

датасет Million Playlists от Spotify слишком мал и не подходит для рекомендательных систем промышленного уровня;
датасет Netflix Prize содержит около 17 000 объектов с временными метками только в виде даты, что ограничивает возможности временного моделирования и масштабных исследований;
датасет 1TB Click Logs от Criteo выложен без надлежащей документации и идентификаторов, а основными его объектами являются клики по рекламным объявлениям.

Из-за недостаточного объёма обучающих данных модели, отлично показавшие себя в академических исследованиях, часто оказываются неэффективными в реальных условиях. Это в том числе затрудняет интеграцию рекомендательных систем с платформами и сервисами, имеющими современную архитектуру.

О датасете Yambda

Yambda позволяет решать актуальные задачи современных рекомендательных систем, так как содержит огромный массив обезличенных данных из Яндекс Музыки, стримингового сервиса, которым каждый месяц пользуется около 28 млн человек. С помощью датасета Yambda можно изучить взаимодействие пользователей с контентом, доступным в Яндекс Музыке. В этом сервисе реализована сложная рекомендательная система «Моя волна», которая подбирает музыку для каждого пользователя с учётом предпочтений. Для обеспечения конфиденциальности все данные о пользователях и треках обезличены, датасет содержит только числовые идентификаторы.

Основные характеристики датасета:

4,79 млрд обезличенных пользовательских действий, собранных за 10 месяцев;
данные получены от 1 млн пользователей и обезличенных идентификаторов при взаимодействии с 9,39 млн треков;
два типа обратной связи: неявная (прослушивание) и явная (лайки, дизлайки и их отмена);
эмбеддинги треков (векторные представления, созданные с помощью свёрточных нейронных сетей) и обезличенная информация о треках;
флаг is_organic, который позволяет разграничить органические действия, когда пользователь находит трек самостоятельно, и действия, предложенные рекомендательной системой, что способствует более глубокому анализу поведения;
временные метки всех событий (для анализа поведенческой динамики и оценки моделей в условиях, максимально приближенных к реальным).

Датасет выложен в формате Apache Parquet™, который совместим с системами распределённой обработки данных (например, Spark или Hadoop®) и аналитическими библиотеками (например, Pandas и Polars).

Варианты датасета и оценка качества алгоритмов

Датасет Yambda доступен в трёх вариантах (~5 млрд, 500 млн и 50 млн событий) и подходит для любых вычислительных мощностей и разных задач в области исследований и разработки.

Варианты датасета

Датасет	Пользователи	Объекты	Прослушивания	Лайки	Дизлайки
Yambda-50M	10 000	934 057	46 467 212	881 456	107 776
Yambda-500M	100 000	3 004 578	466 512 103	9 033 960	1 128 113
Yambda-5B	1 000 000	9 390 623	4 649 567 411	89 334 605	11 579 143

Для оценки качества алгоритмов используется подход Global Temporal Split (GTS), который подразумевает разбивку данных по времени и позволяет сохранить естественную последовательность событий. При использовании подхода Leave-One-Out из истории каждого пользователя в тестовый набор данных откладывается только последнее подтверждённое взаимодействие, что может привести к нарушению временных последовательностей в обучающих и тестовых выборках. GTS исключает эту ситуацию и гарантирует более реалистичное тестирование модели, при котором имитируются реальные условия, а данные из будущего недоступны.

Бейзлайны для сравнения новых подходов к разработке рекомендательных систем были получены при тестировании алгоритмов MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Использовались стандартные метрики, в том числе:

NDCG@k — качество ранжирования;
Recall@k — способность генерировать релевантные рекомендации;
Coverage@k — разнообразие каталога.

Yambda, крупнейший в мире открытый датасет для рекомендательных систем, теперь доступен на Hugging Face.

Казахстанцы смогут передавать показания газовых счетчиков через eGov Mobile

Единый QR для всех банков: в Казахстане с 19 июля заработает межбанковская система платежей

Яндекс выложил в открытый доступ крупнейший в мире датасет для развития рекомендательных систем

Похожие посты

Яндекс Карты начали предупреждать водителей Алматы об опасных участках дороги

Скончался Хидеки Сато — «отец» консольного наследия Sega

Китай запустил серийное производство GaN-чипов для будущих сетей 6G

«Фонд фондов» Казахстана привлек $115 млн и начал финансирование ИИ-проектов

Tesla избавляется от Model S и Model X

Жители Алматы и Астаны увидят городские ёлки в 3D

1 Comment

Добавить комментарий Отменить ответ

Рекомендуем

Казахстанцы смогут передавать показания газовых счетчиков через eGov Mobile

Единый QR для всех банков: в Казахстане с 19 июля заработает межбанковская система платежей

В Казахстане начались продажи POCO C81 Pro

Stream Solutions и Daqo Group займутся дата-центрами нового поколения

Популярные

5 ключевых трендов маркетинга для e-commerce в Казахстане: цифры и перспективы

Binance интегрирует Apple Pay и Google Pay для упрощения покупки криптовалют

Рекомендуем

Казахстанцы смогут передавать показания газовых счетчиков через eGov Mobile

Единый QR для всех банков: в Казахстане с 19 июля заработает межбанковская система платежей

В Казахстане начались продажи POCO C81 Pro

Stream Solutions и Daqo Group займутся дата-центрами нового поколения

Похожие посты

1 Comment

Добавить комментарий Отменить ответ

Популярные

Подпишитесь на нас

Рекомендуем