После 9 месяцев переговоров из 30 потенциальных клиентов остался один. История про ML-проект на аутсорсинге

Колонки 29 апреля 2019

Дмитрий Лучкин

ex-СМО Orca.App, Travelata, Biglion, Mamba, Growth Head Bitrix24

Полина Константинова

Дмитрий Лучкин, экс-СМО & Growth Officer Travelata.ru и экс-СМО Biglion.ru & Mamba.ru, поделился своим опытом разработки проекта по машинному обучению на аутсорсинге. В колонке Дмитрий рассказал о тех сложностях, с которыми пришлось столкнуться, и сделал выводы, которые будут полезны и другим командам, работающим по такой схеме.

Подписаться на RB.RU в Telegram

Если вы набили руку на этом поприще, статья не даст вам сверхзначимой информации. Но, возможно, моя история покажется чем-то знакомой, и вы с улыбкой прочтете этот текст. Начнем по порядку.

Для начала хочется развенчать один миф

Сейчас machine learning в тренде, поэтому о нем так много говорят. А еще очень многие основатели или топы в digital думают, что до таких проектов им еще добираться, как до Луны. Но хочется сразу развеять мифы и приземлиться в практическую плоскость.

По большому счету машинное обучение – это математические методы, которые с помощью зачастую общедоступных библиотек при успешном использовании улучшают показатели вашего бизнеса.

Какие например? Давайте возьмем те области ML, в которых я участвовал:

прогнозирование оттока (churn rate),
предсказание дохода от пользователя по первым действиям внутри продукта (LTV),
рекомендательные системы, которые предугадывают, что пользователи могут с большей вероятностью купить на витринах (upsale & cross sale).

Вышеуказанное относится к задачам по классификации. Был еще опыт по тематическому моделированию: предсказание речевых стратегий пользователей на основе анализа пользовательского поведения (антиспам- и антифрод-инструменты для бизнеса), а также коллаборативная фильтрация, рекомендующая пользователей друг другу для общения на основе сопоставления параметров и анализа метрики числа сообщений друг другу (где метрикой успеха был переход за число Х взаимных сообщений).

Понятно, что бизнес-целью для двух последних методов было улучшение метрик retention. То есть все эти задачи имеют чисто прикладное значение. В условиях роста конкуренции в digital и удержание, и дополнительные продажи, и рост LTV или снижение затрат на неэффективные маркетинговые каналы, имеют существенное значение для развития бизнеса.

Второй миф, который хотелось бы развенчать

Это то, что машинное обучение – это очень долго. Не всегда, обычно проект длится до трех месяцев при наличии хорошей команды и эффективном взаимодействии архитектора, аналитиков и команды разработки заказчика. Но есть, видимо, типичные ситуации, которые растягивают сроки таких проектов.

Фото: Unsplash

Теперь о моем опыте

Где-то полтора года назад, сделав network из успешных ребят в data science (на двух архитекторов приходилось около 20-ти проектов, всего можно было подтянуть человек 25 – аналитиков, разработчиков – многие из них уже давно не в России работают), я попробовал это упаковать и продавать как аутсорсинг.

Я собрал в pipeline около 30 потенциальных клиентов и прошелся по ним дерзким presale’ом. Какую обратную связь я получил:

до 30% потенциальных клиентов пытались хантить команду для inhouse, хотя мы не искали работу;
почти 90% не верили опыту распределенной команды на уровне «это возможно?... да ну». В российских компаниях очень много нерешительности, и принятие решений на корпоративном уровне крайне затянуто;
нужно было встроиться в процесс бюджетирования, хотя вроде бы вписались в четвертом квартале, пройдя первые встречи в этот период;
команды бизнеса в банках, например, часто менялись, что затрудняло presale;
один телеком-оператор, сначала критически разгромив все предложения, предложил поработать по модели contingency. Это когда оплата идет строго за результат (который очень зависит от внедрения в продукт и прочих маркетинговых вещей, на которые мы не можем влиять). Но становиться соинвестором для ребят, у которых все ок с деньгами в наши планы не входило;
кто-то вообще скептически относился ко всем идеям – особенно из банков дальше первых из топа-5. Ну их ждет яркая трансформация в ближайшие годы.

Мне стало ясно, что:

цикл сделки – это 12-18 месяцев (типично для В2В – системная интеграция, аутсорсинг). Для нас это был как запуск лендинга с апробированием идеи machine learning на аутсорсинге – полили трафиком presale’а, выводы сделали;
если внутри заказчика нет людей с драйвом в одном месте, которые при реализации machine learning-проекта могут увеличить свои KPI кратно – у такого проекта нет шансов в реализации. Роль таких людей – убедить основателей или топов попробовать эксперимент, рассчитать выгоду и дополнительный доход (экономию). Без них проект «не купят»;
в технической команде заказчика должны быть заинтересованные в проекте люди – из интереса или KPI – иначе они потопят проект и будут ему противодействовать. Они должны стать союзниками – без них проект «не взлетит».

Фото: Unsplash

Скорее всего, это очень очевидные вещи. Но если они вам помогут в любом аутсорсингом проекте – я буду только рад. Смех смехом, но капитан очевидность может помочь вам избежать ошибок.

Кстати, SEO на аутсорсинге продается ненамного легче. Иногда цикл продажи для потенциального заказчика длится 6-9 месяцев, закрывается невероятная возможность или конкурент забирает целый кластер семантики.

За это мы все обожаем digital – пока кто-то медленно тупил, его обскакали конкуренты порезвее, взяв трафик за стоимость клика раз в 30-50 меньше, чем в контекстной рекламе.

Время, опыт и знания в digital – зачастую важнее денег. Если в Долине много денег и можно ошибку залить инвестициями, в России ситуация несколько иная.

Но отбросим лирику – в итоге из 30 потенциальных клиентов у нас остался в итоге один. При этом от вброса идеи, то есть «первого касания», до старта проекта прошло 9 месяцев интенсивных переговоров.

Какая была задача и что мы cделали?

Нужно было сделать инструмент предсказания LTV для СРА-сеток, чтобы отсеивать трафик от веб-мастеров по первым шагам пользователя внутри продукта. То есть нужно было понимать LTV за 3, 6, 12 месяцев по первым 24-36 часам поведения пользователя внутри продукта.

Мы разбили проект на стадии и начали работу. Стадии обычно включают:

нормализацию данных,
создание алгоритма и его тюнинг,
передачу заказчику.

Из плюсов старта – СТО проекта им заинтересовался и выделял время/ресурсы, что не было характерно для других маркетинговых задач. Из минусов: внутри команды не было аналитика с python, чтобы было кому передать алгоритм, в том числе по вопросам его модификации и соотнесения данных. Но были разработчики, которые оперативно отвечали.

СТО был на стороне проекта. Это было круто.

У проекта была специфика, данные не хранились общем хранилище и не были до конца стандартизованы и описаны. То есть около 3-4 недель ушло на понимание, таблиц и их состояний-статусов, плюс, описание событий внутри этих таблиц.

В проекте участвовал архитектор и пара аналитиков с нашей стороны. Machine learning приземленно – это когда к данным в виде событий (а это все, что делает пользователь в вашем продукте) находят наиболее подходящий метод, на пальцах – математику, которая дает наилучший прогноз.

Об ошибке

Здесь была допущена ошибка, которая привела к увеличению сроков проекта. До этого мы чаще всего работали с BigQuery или с другими видами зафиксированных по структуре данных решениями.

Оказалось, что многие изменения в ходе развития продукта модифицировали события внутри таблиц данных, часть исчезала как вид данных или переименовалась. То есть нормализация и очистка нужна была постоянно.

Фото: Unsplash

В результате после первого внедрения алгоритма (это был Random Forest плюс некий гибрид с доработкой), модель показывала предсказывания LTV на уровне 75% на месяц-три и чуть сильнее на длительный срок, то есть предугадывала, как будет платить пользователь и каков у него будет LTV.

В момент переноса на бой из тестовой среды обнаружилось, что алгоритм поломался из-за переделки баз данных. Разработчик, который вел проект, переписал код. После второго переноса (на самом деле, это была версия второго алгоритма или во многом новый алгоритм) в бой выявилась проблема с данными.

В итоге получалось, что алгоритм нужно дорабатывать, если данные/события меняются в таблицах.

В этот момент наш разработчик переехал в США, старт работы там снижал его заинтересованность в переписывании алгоритма в третий раз. Все были в легком отчаянии. Мы договорились зафиксировать структуру баз данных, проведя обучение внутри заказчика, полностью описав, как работает алгоритм.

Стало ясно, что внутри нужен такой человек, который будет технически понимать архитектуру продукта и как работает алгоритм, на основании каких данных и что ему нужно отдавать. Он будет специализироваться на этой работе и отдавать ей минимум на 80% рабочего времени. И будет «болеть» проектом.

Фото: Unsplash

Мы начали искать такого эксперта, чтобы он постоянно поддерживал проект. Нам повезло, что у заказчика был на примете сильный аналитик-разработчик, который стал заниматься data science.

Он работал до этого у заказчика и с радостью вернулся к работе, тем более именно отсутствие machine learning заставило выйти на время из компании (техническая команда заказчика распределена по регионам России).

После обучения он смог сделать так, что алгоритм был постоянно в рабочем состоянии и отдавал через интерфейс прогнозы по каналам, что позволило отключить часть трафика, который не окупился бы никогда.

Какие выводы мы сделали?

Нормализация данных и их «фиксация» – это базовое условие для быстрой реализации алгоритмов machine learning. Без этого ничего не работает.
Наличие в проекте драйвера в лице бизнеса и поддержки со стороны СТО – это необходимые условия, чтобы проект дошел до стадии «в бою».
Внутри компании заказчика должен быть человек, которому вы передадите алгоритм. Эта команда должна быть квалицирована или мотивирована на поддержку или сопровождение алгоритма. Без этого ваше детище не выживет.
В стадиях ведения проекта у нас был пункт «презентация, какой алгоритм выбран и как он работает, на основании каких данных» после разработки первого прототипа. Мы были в эйфории быстрого движения к цели и на драйве классного взаимодействия с СТО и командой заказчика в целом, так как на этапе нормализации данных дали пару-тройку инсайтов по продукту. Следуйте своему плану. Мы этот пункт пропустили и получили месяца два задержки и двойную разработку.

Как machine learning-команде нам интересны островки terra incognita в виде новых задач и, конечно, мы были не заинтересованы в change management и дополнительной тарификации заказчика.

Мы хотели запустить проект побыстрее, заняться следующими. Это наивность. Более строгое следование планам и четкость по почасовой тарификации вашей работы по time & material сделает вас трезвее и дисциплинированнее. Всем будет хорошо от такого четкого понимания.

Мне кажется, это нужно делать в любом аутсорсинге – таким образом все будут довольны и по срокам, и по результатам. Вы с заказчиком будете на одной волне, полностью понимая вашу полезность и соотношение value for money.

Материалы по теме:

Шесть вещей, которые я никогда не отдам на аутсорсинг

Аутсорсинг-баттл: «за» или «против» — на чьей стороне ты?

Как работает машинное обучение в маркетинге?

Почему стоит беспокоиться о том, что машины умеют читать ваши эмоции

Как внедрить машинное обучение и повысить количество откликов на вакансии на 5 миллионов: кейс HeadHunter

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ