Мнения / Бизнес

Холодный старт: как начать бизнес, когда данных нет

Как новому бизнесу лучше узнать своего клиента

25 апреля 2024, 16:25

8 минут

Бизнес

Автор:

Виктор Мартынов

Проблема холодного старта (англ. cold start) — ситуация, с которой сталкивается каждый новый бизнес. Когда еще не накоплены исторические данные для корректной работы рекомендательных систем, сложно понять, что показывать пользователям и какие продукты продвигать в первую очередь. О том, как развивать бизнес в условиях холодного старта, рассказал ИТ-предприниматель Виктор Мартынов.

Содержание:

В чем сложность холодного старта в бизнесе
Смещение данных
Модель PreRec как решение проблемы холодного старта
Маркетинг будущего

В чем сложность холодного старта в бизнесе

При холодном старта бизнесу сложно развиваться. Примерами холодного старта могут быть ситуации, когда:

в системе зарегистрировался новый пользователь;
компания выходит на новый рынок;
в продуктовой линейке появляется новый товар.

В таких случаях нужно быстро понять, что заинтересует клиентов. Ради этого крупные компании строят целые рекомендательные системы. Они похожи на алгоритмы поиска Google или Яндекса, которые на основании своих внутренних метрик показывают пользователю то, что он хочет.

Рекомендательные системы — сложная сфера, на которой такие компании как Amazon зарабатывают миллиарды. Для этого они создали свой механизм совместной фильтрации (CFE), основанный на поведенческой аналитике. Сейчас механизм обеспечивает 35% годовых продаж магазина Amazon (~$200,5 млрд). Для работы этого алгоритма компания собрала больше 1 эксабайта данных о своих пользователях. У нового бизнеса нет возможности сравниться с такой точностью.

Другие крупные игроки в сфере рекомендательных систем — Microsoft, IBM, HPE, Oracle, Google и Salesforce. В целом мировой рынок рекомендательных систем оценивался в $4,5 миллиарда в 2023 году и, по прогнозам, к 2028 году достигнет $25 млрд. Среднегодовой темп роста в ближайшее десятилетие составит 32,1%. Всё это в основном достается крупным игрокам.

У небольших компаний, особенно находящихся в режиме холодного старта, есть две проблемы. Первая — отсутствие большого объема исторических данных, на основе которых можно было бы что-то рекомендовать. Иногда это решается закупкой датасета у поставщиков, информационных брокеров (Acxiom, CoreLogic, Nielsen, Experian, Oracle), но он не всегда является релевантным.

Вторая проблема — смещение данных, которое, даже при наличии бюджета, так просто не решить. Остановимся на этой проблеме подробнее.

Смещение данных

Смещение данных (англ. data bias) знакомо всем, кто работает с датасетами, статистикой или машинным обучением. Оно означает, что при выборке одни элементы набора были представлены лучше или получили больший вес, чем другие.

Например, при опросе 10 пользователей 8 из них были женщинами. Или при покупке данных у дата-брокера все эти данные были собраны с пользователей ВКонтакте. Если ваша аудитория не соотносится с этими данными, то модель, построенная на них, будет давать сбои. Система не будет правильно разделять пользователей по интересам, не сможет построить актуальные демографические категории.

Иллюстрация автора статьи

Обнаружить наличие смещения данных в больших датасетах сложно, если вам о нем заранее не скажут. Даже если наличие обнаружено, сложно понять, где находится искаженная информация и как её устранить. Во многих случаях компании предпочитают просто закупить или собрать новый набор данных и перестать использовать скомпрометированный.

Проблема смещения данных становится еще более серьезной в случае холодного старта рекомендательной системы. Второго набора данных здесь нет. Информации для выдачи персонализированных рекомендаций не хватает. Поэтому система вынуждена полагаться на имеющуюся у неё ограниченную информацию — от тестовых пользователей, команды проекта, первых посещений.

Смещение данных в подобной ситуации становится серьезной проблемой:

имеющиеся данные отражают предпочтения отдельной части целевой аудитории и неприменимы к новым товарам или людям;
система быстро набирает предвзятость к популярным товарам или наиболее распространенным социальным группам.

В итоге рекомендации оказываются менее релевантными и персонализированными.

Можно привести в пример новые интернет-магазины, которые пытаются что-то посоветовать пользователю, но результат часто не соответствует ожиданиям.

При холодном старте товар, который продается чаще всего, может надолго задержаться в списке рекомендаций для всех категорий пользователей, даже если он им нерелевантен.

Упор на популярность при выборе рекомендаций играет плохую шутку не только с интернет-магазинами. Например, в США был целый ряд скандалов по поводу использования «сырых» рекомендательных систем при подборе сотрудников. Алгоритмы отказывали в найме афроамериканцам и женщинам, поскольку в изначальной выборке их было не так много и на работу их брали реже. В результате несколько компаний предстали перед судом.

Аналитическая компания DataRobot опубликовала отчёт, согласно которому 36% компаний сталкивались с негативным влиянием смещения данных в своей работе. Среди них 62% потеряли доходы, 61% потеряли часть пользователей, а 35% попали под судебный иск.

Иллюстрация сделана автором (Источник: отчет компании DataRobot)

Среди крупных примеров — потеря $550 млн риэлторской компанией Zillow из-за неверных рекомендаций их новой системы по покупке домов. Из 27 тыс. купленных объектов только 17 тыс. смогли продать.

Наличие смещения обостряет проблему холодного старта. Для эффективных рекомендаций при минимуме данных важно найти способ избавиться от этих скрытых предубеждений системы.

По теме: IT-предприниматели в 2024: как будет развиваться самый технологичный сегмент малого и среднего бизнеса

Модель PreRec как решение проблемы холодного старта

Существуют различные алгоритмы, которые проверяют наличие смещения данных и пытающиеся его устранить. Передовые рекомендательные системы могут использовать, в частности, алгоритм POP (общая популярность товара), SBERT, ZESRec или UniSRec. Их эффективность в индустрии оценивается параметром точности K, показывающим, какой процент из рекомендованных элементов в общем списке действительно актуален.

Для всех этих систем параметр K, как правило, находится в диапазоне 7-15% в зависимости от конкретного рынка. Это значит, что примерно каждый седьмой предмет (в лучшем случае) является актуальным для пользователя. Это является хорошим показателем, особенно в условиях нехватки информации.

Но в начале 2024 года ученые из AWS AI Labs и Висконсинского университета в Мадисоне предложили новуюболее мощную модель: рекомендательный нейросетевой алгоритм PreRec, направленный на решение проблем смещения данных и холодного старта. Актуальный для всех предпринимателей с собственным интернет-магазином или любой другой автоматической рекомендательной системой.

Модель имеет следующие особенности:

обучается на данных из множества разных доменов (отраслей, рынков, платформ), чтобы извлечь универсальные паттерны взаимодействия пользователей и товаров;
разделяет предвзятость на два вида: внутридоменную и междоменную;
тренируется над устранением обоих вариантов искажения данных, используя Байесовский подход в глубоком обучении;
устраняет смещения с помощью причинно-следственного подхода, чтобы понять истинные предпочтения рынка или аудитории;
обобщает данные по новым рынкам, отраслям и товарам благодаря обучению на разных доменах и устранению отдельных видов смещений.

Пример внутридоменной предвзятости — смещение данных из-за популярности товара. Оно влияет и на рейтинги внутри системы, и на модели поведения пользователей (поскольку пользователи склонны следовать за большинством и чаще взаимодействовать с трендовыми элементами). Междоменная предвзятость учитывает смещение товара, вызванное уникальными свойствами домена. Например, бизнес запускает новую кампанию по продвижению, которая влияет как на цену товара, так и на модели поведения пользователей.

В результате устранения двух этих типов предвзятостей выходит универсальная рекомендательная система, которая может быстро адаптироваться к условиям на новом домене. PreRec показывает намного более точные рекомендации для новых товаров и пользователей без наличия информации о конкретном магазине или рынке. Таким образом, она решает проблему холодного старта. Эксперименты показали, что PreRec справляется с холодным стартом примерно в 1,5-2 раза эффективнее по сравнению с другими подходами.

Иллюстрация автора статьи

Точность рекомендаций при использовании разных моделей: PreRec справляется в 1,5-2 раза лучше альтернатив. Сравнимые с ним модели ZESRec и UniRec были ранее предложены той же группой ученых.

Эмпирические исследования на реальных данных показали, что предложенная модель может значительно улучшить эффективность рекомендаций в условиях обучения с нулевым или малым количеством данных. Разработка команды общедоступна на GitHub, поэтому воспроизвести PreRec в своем проекте может каждый.

При наличии внутренней экспертизы можно дотренировать модель на релевантных для конкретного бизнеса данных (fine-tuning). Но при необходимости PreRec способна выдавать рекомендации вообще без взаимодействия с целевым доменом (т.н. zero-shot).

По теме: Пять «проблем роста» бизнеса: вы сможете их решить?

Маркетинг будущего

Персональные рекомендации для пользователей — важный инструмент в руках бизнеса. Уже сейчас они приносят крупным компаниям дополнительные миллиарды. В опросе Monetate 75,5% из руководителей фирм сообщили, что получают положительный ROI от инвестиций в персонализацию. А 90% пользователей заявили, что готовы поделиться своими данными.

Исследование SalesForce обнаружило, что покупатели, которым показали релевантные рекомендации, в 4,5 раза чаще добавляют товары в корзину и в 4,5 раза чаще завершают покупку. А статистика по магазинам США показывает, что клиенты, которым на сайте выдавались точные рекомендации, имеют AOV (Average Order Value) выше на 369%.

До этого такая эффективность была доступна только с наличием большого объема исторических данных. Крупные магазины и те, кто первыми вышел на рынок (Amazon, Walmart, Apple) получали значительное преимущество. Но теперь, как с ИИ и ChatGPT, доступ к рекомендательным системам уровня PreRec есть у каждого: от крупной компании до маркетолога.

Стартапы могут использовать точные рекомендаций даже в условиях холодного старта. Это дает им возможность соперничать с лидерами индустрии.

Работа с PreRec открывает возможности для:

инноваций. Продукты могут адаптироваться к новым тенденциям, предпочтениям пользователей и технологиям без необходимости тщательного переобучения моделей;
эффективности. Циклы разработки продуктов можно ускорить, поскольку модели быстро адаптируются к новым доменам, сокращая время и ресурсы, необходимые для запуска новых функций или продуктов;
персонализации. Обучение с холодного старта позволяет персонализировать взаимодействие с пользователем, адаптируя рекомендации с учетом ниши или уникальных интересов;
масштабируемости. Модели рекомендаций с возможностью работы на холодном старте способны обрабатывать более широкий спектр задач и областей, что делает их адаптируемыми к меняющимся требованиям рынка.

Вывод новых продуктов на рынок становится проще. А пользователи получают более точные персонализированные рекомендации. Возможно, эпоха стартапов даже в самых конкурентных сферах всё-таки не закончилась.

Фото на обложке: Freepik

Подписаться на телеграм-канал