Хотя многие до сих пор считают маркетинг отраслью на грани бизнеса и искусства, рекламный рынок давно перестал быть местом, куда стремятся попасть исключительно творческие люди. Индустрия медиа и развлечений, как известно, переживает цифровую трансформацию одной из первых, а значит, и индустрия рекламы вместе с ней – и новые технологии существенно меняют ее ландшафт.
Михаил Горкунов, руководитель отдела Data Science «АДВ Лаб», рассказывает о том, что скрывается за модным научным понятием «машинное обучение» применительно к маркетингу и какие задачи можно решать с помощью алгоритмов ML в этой сфере.
Для чего может использоваться машинное обучение?
Глобально технология чаще всего используется для решения трех основных задач:
- классификация – отнесение объекта к тому или иному классу на основании его характеристик (простейший пример – мужчины/женщины);
- регрессия – определение значения того или иного параметра объекта на основе имеющихся данных (прогнозирование спроса на определенный товар, роста или падения цен);
- кластеризация – поиск независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных (например, разделение писем в электронной почте по тематикам: «работа», «учеба», «личное», «спам» и так далее).
Применительно к маркетингу рассматриваются, как правило, первые две.
Итак, чем же нам могут помочь алгоритмы классификации? Прежде всего, это незаменимый инструмент для создания сегментов look-alike.
Если каких-то десять лет назад мы знали лишь социально-демографический профиль своих потребителей, то сегодня у нас есть данные о том, как они проводят досуг, куда ходят за покупками, что покупают и сколько за это платят. И именно машинное обучение помогает нам связать эти данные и использовать для повышения эффективности рекламы.

Простой пример: допустим, у нас есть небольшой сегмент потребителей, регулярно покупающих витамины. Мы знаем также, чем эти люди занимаются в интернете: на какие сайты ходят, какие действия совершают, какие тематики предпочитают.
Исходя из имеющихся у нас данных (естественно, обезличенных), мы можем предположить, что люди, ведущие себя в сети схожим образом, также могут оказаться в числе тех, кто не прочь купить витамины.
Поиск таких людей вручную занял бы огромное количество времени, однако алгоритм способен производить эти вычисления в тысячи раз быстрее. Таким образом, мы получаем возможность расширить наш сегмент – то есть создать тот самый look-alike.
Еще один возможный вариант применения подобного рода алгоритмов – отслеживание фрода. Думаю, здесь все и так понятно: на основе определенного набора признаков алгоритм решает, была ли ваша реклама в интернете показана человеку или же боту.

Что касается алгоритмов регрессии, они оказываются незаменимы при прогнозировании охватов. Используя обширные данные о прошедших рекламных кампаниях, можно обучить модель предсказывать охват будущей кампании, учитывая такие параметры, как объем бюджета, используемые каналы, сезонность и другие.
Как происходит выбор алгоритма?
Есть ли какие-то популярные алгоритмы, которые используются именно в маркетинге?
В целом, безусловно, существуют алгоритмы, пользующиеся большей популярностью у дата-сайентистов, нежели другие, – некий must-have каждого уважающего себя специалиста по работе с данными (например, логистическая регрессия или «случайный лес»).
Но нельзя сказать, что подобные предпочтения имеются применительно к конкретной отрасли – выбор алгоритма, скорее, исходит из имеющихся задач. Помимо этого, обычно учитываются размер выборки данных и время, необходимое на разработку алгоритма.
Время – это понятный параметр: в стремлении осуществить задуманное мы, как правило, выбираем наиболее быстрый путь.
С выборкой все обстоит интереснее: вы можете построить сложную нейросеть для решения поставленной задачи, но если количество исходных данных невелико, то очень скоро произойдет переобучение, и алгоритм начнет использовать в своих расчетах признаки, не имеющие отношения к реальной задаче.
Например, вы обучаете нейросеть классифицировать изображения людей на мужчин и женщин, однако ваша выборка недостаточно велика, и так получилось, что у всех женщин в ней зеленые глаза.

Алгоритм фиксирует этот момент и начинает использовать данный признак как определяющий пол человека на изображении. Таким образом, как правило, чем меньше выборка, тем проще должен быть алгоритм.
Какие в итоге результаты мы можем получить?
Насколько использование машинного обучения повышает эффективность рекламных кампаний?
В конце 2017 года мы в АДВ поставили перед собой довольно амбициозную цель: объединить данные о том, что делают потребители во всех медиа – проще говоря, создать единую систему измерений для ТВ, интернета, радио и наружной рекламы с возможностью видеть, что делает один и тот же человек в каждом из этих каналов.
На данный момент мы уже имеем возможность создавать единые рекламные кампании для ТВ и интернета – и, конечно же, во многом мы обязаны этому алгоритмам машинного обучения.
Процесс происходит следующим образом: основным поставщиком данных об аудитории на российском рекламном рынке является компания Mediascope. Для того чтобы эффективно планировать размещение сразу в двух ключевых медиа (ТВ+интернет) и определять необходимую долю каждого из них в рекламной кампании, нужно объединить информацию из двух источников – Mediascope TV Index (данные о просмотре ТВ) и Web Index (данные об интернет-пользовании).
Для начала мы используем небольшую выборку, в которой нам уже известны характерные черты поведения одних и тех же пользователей как на ТВ, так и в интернете, и на ее основе обучаем алгоритм находить похожих пользователей в нужных нам источниках.

Мы находим в TV Index человека с максимально близкими признаками к пользователю Х, а затем проделываем то же самое и в Web Index – для этого используется довольно популярный и простой алгоритм kNN или k-ближайших соседей (как раз тот случай, когда количество исходных данных невелико).
Далее нам остается лишь «соединить» найденных пользователей в двух источниках между собой. Здесь в дело вступает Венгерский алгоритм – он не имеет отношения к машинному обучению, но помогает нам сформировать пары в новой выборке – проще говоря, найти одного и того же человека. Звучит довольно фантастично, однако точность подобного метода составляет порядка 95%.

По нашим замерам, такой подход способен увеличить эффективность до 17%. Учитывая, что машинное обучение является одной из самых быстроразвивающихся областей искусственного интеллекта, нетрудно представить, какое будущее нас ждет.
Материалы по теме:
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Личный опыт: как открыть магазин одежды»
- 1 Чем различаются слабый, сильный и супер-ИИ
- 2 Обзор технологии и применение машинного обучения с подкреплением
- 3 Apple решила зарегистрировать в России название функции камеры в iPhone
- 4 билайн Big Data & AI разработал решение для отслеживания потенциальных случаев мошенничества со стороны персонала