Top.Mail.Ru
Колонки

После 9 месяцев переговоров из 30 потенциальных клиентов остался один. История про ML-проект на аутсорсинге

Колонки
Дмитрий Лучкин
Дмитрий Лучкин

ex-СМО Orca.App, Travelata, Biglion, Mamba, Growth Head Bitrix24

Полина Константинова

Дмитрий Лучкин, экс-СМО & Growth Officer Travelata.ru и экс-СМО Biglion.ru & Mamba.ru, поделился своим опытом разработки проекта по машинному обучению на аутсорсинге. В колонке Дмитрий рассказал о тех сложностях, с которыми пришлось столкнуться, и сделал выводы, которые будут полезны и другим командам, работающим по такой схеме.

После 9 месяцев переговоров из 30 потенциальных клиентов остался один. История про ML-проект на аутсорсинге

Если вы набили руку на этом поприще, статья не даст вам сверхзначимой информации. Но, возможно, моя история покажется чем-то знакомой, и вы с улыбкой прочтете этот текст. Начнем по порядку.

Заставь искусственный интеллект самообучаться и совершенствоваться – выбирай онлайн-курсы в каталоге курсов по машинному обучению.

Для начала хочется развенчать один миф

Сейчас machine learning в тренде, поэтому о нем так много говорят. А еще очень многие основатели или топы в digital думают, что до таких проектов им еще добираться, как до Луны. Но хочется сразу развеять мифы и приземлиться в практическую плоскость.

По большому счету машинное обучение – это математические методы, которые с помощью зачастую общедоступных библиотек при успешном использовании улучшают показатели вашего бизнеса.

Какие например? Давайте возьмем те области ML, в которых я участвовал:

  • прогнозирование оттока (churn rate),
  • предсказание дохода от пользователя по первым действиям внутри продукта (LTV),
  • рекомендательные системы, которые предугадывают, что пользователи могут с большей вероятностью купить на витринах (upsale & cross sale).

Вышеуказанное относится к задачам по классификации. Был еще опыт по тематическому моделированию: предсказание речевых стратегий пользователей на основе анализа пользовательского поведения (антиспам- и антифрод-инструменты для бизнеса), а также коллаборативная фильтрация, рекомендующая пользователей друг другу для общения на основе сопоставления параметров и анализа метрики числа сообщений друг другу (где метрикой успеха был переход за число Х взаимных сообщений).

Понятно, что бизнес-целью для двух последних методов было улучшение метрик retention. То есть все эти задачи имеют чисто прикладное значение. В условиях роста конкуренции в digital и удержание, и дополнительные продажи, и рост LTV или снижение затрат на неэффективные маркетинговые каналы, имеют существенное значение для развития бизнеса.

Второй миф, который хотелось бы развенчать

Это то, что машинное обучение – это очень долго. Не всегда, обычно проект длится до трех месяцев при наличии хорошей команды и эффективном взаимодействии архитектора, аналитиков и команды разработки заказчика. Но есть, видимо, типичные ситуации, которые растягивают сроки таких проектов.

Фото: Unsplash

Теперь о моем опыте

Где-то полтора года назад, сделав network из успешных ребят в data science (на двух архитекторов приходилось около 20-ти проектов, всего можно было подтянуть человек 25 – аналитиков, разработчиков – многие из них уже давно не в России работают), я попробовал это упаковать и продавать как аутсорсинг.

Я собрал в pipeline около 30 потенциальных клиентов и прошелся по ним дерзким presale’ом. Какую обратную связь я получил:

  • до 30% потенциальных клиентов пытались хантить команду для inhouse, хотя мы не искали работу;
  • почти 90% не верили опыту распределенной команды на уровне «это возможно?... да ну». В российских компаниях очень много нерешительности, и принятие решений на корпоративном уровне крайне затянуто;
  • нужно было встроиться в процесс бюджетирования, хотя вроде бы вписались в четвертом квартале, пройдя первые встречи в этот период;
  • команды бизнеса в банках, например, часто менялись, что затрудняло presale;
  • один телеком-оператор, сначала критически разгромив все предложения, предложил поработать по модели contingency. Это когда оплата идет строго за результат (который очень зависит от внедрения в продукт и прочих маркетинговых вещей, на которые мы не можем влиять). Но становиться соинвестором для ребят, у которых все ок с деньгами в наши планы не входило;
  • кто-то вообще скептически относился ко всем идеям – особенно из банков дальше первых из топа-5. Ну их ждет яркая трансформация в ближайшие годы.  

Мне стало ясно, что:

  • цикл сделки – это 12-18 месяцев (типично для В2В – системная интеграция, аутсорсинг). Для нас это был как запуск лендинга с апробированием идеи machine learning на аутсорсинге – полили трафиком presale’а, выводы сделали;
  • если внутри заказчика нет людей с драйвом в одном месте, которые при реализации machine learning-проекта могут увеличить свои KPI кратно – у такого проекта нет шансов в реализации. Роль таких людей – убедить основателей или топов попробовать эксперимент, рассчитать выгоду и дополнительный доход (экономию). Без них проект «не купят»;
  • в технической команде заказчика должны быть заинтересованные в проекте люди – из интереса или KPI – иначе они потопят проект и будут ему противодействовать. Они должны стать союзниками – без них проект «не взлетит».

Фото: Unsplash

Скорее всего, это очень очевидные вещи. Но если они вам помогут в любом аутсорсингом проекте – я буду только рад. Смех смехом, но капитан очевидность может помочь вам избежать ошибок.

Кстати, SEO на аутсорсинге продается ненамного легче. Иногда цикл продажи для потенциального заказчика длится 6-9 месяцев, закрывается невероятная возможность или конкурент забирает целый кластер семантики.

За это мы все обожаем digital – пока кто-то медленно тупил, его обскакали конкуренты порезвее, взяв трафик за стоимость клика раз в 30-50 меньше, чем в контекстной рекламе.

Время, опыт и знания в digital – зачастую важнее денег. Если в Долине много денег и можно ошибку залить инвестициями, в России ситуация несколько иная.

Но отбросим лирику – в итоге из 30 потенциальных клиентов у нас остался в итоге один. При этом от вброса идеи, то есть «первого касания», до старта проекта прошло 9 месяцев интенсивных переговоров.

Какая была задача и что мы cделали?

Нужно было сделать инструмент предсказания LTV для СРА-сеток, чтобы отсеивать трафик от веб-мастеров по первым шагам пользователя внутри продукта. То есть нужно было понимать LTV за 3, 6, 12 месяцев по первым 24-36 часам поведения пользователя внутри продукта.

Мы разбили проект на стадии и начали работу. Стадии обычно включают:

  • нормализацию данных,
  • создание алгоритма и его тюнинг,
  • передачу заказчику.

Из плюсов старта – СТО проекта им заинтересовался и выделял время/ресурсы, что не было характерно для других маркетинговых задач. Из минусов: внутри команды не было аналитика с python, чтобы было кому передать алгоритм, в том числе по вопросам его модификации и соотнесения данных. Но были разработчики, которые оперативно отвечали.

СТО был на стороне проекта. Это было круто.

У проекта была специфика, данные не хранились общем хранилище и не были до конца стандартизованы и описаны. То есть около 3-4 недель ушло на понимание, таблиц и их состояний-статусов, плюс, описание событий внутри этих таблиц.

В проекте участвовал архитектор и пара аналитиков с нашей стороны. Machine learning приземленно – это когда к данным в виде событий (а это все, что делает пользователь в вашем продукте) находят наиболее подходящий метод, на пальцах – математику, которая дает наилучший прогноз.

Об ошибке

Здесь была допущена ошибка, которая привела к увеличению сроков проекта. До этого мы чаще всего работали с BigQuery или с другими видами зафиксированных по структуре данных решениями.

Оказалось, что многие изменения в ходе развития продукта модифицировали события внутри таблиц данных, часть исчезала как вид данных или переименовалась. То есть нормализация и очистка нужна была постоянно.

Фото: Unsplash

В результате после первого внедрения алгоритма (это был Random Forest плюс некий гибрид с доработкой), модель показывала предсказывания LTV на уровне 75% на месяц-три и чуть сильнее на длительный срок, то есть предугадывала, как будет платить пользователь и каков у него будет LTV.

В момент переноса на бой из тестовой среды обнаружилось, что алгоритм поломался из-за переделки баз данных. Разработчик, который вел проект, переписал код. После второго переноса (на самом деле, это была версия второго алгоритма или во многом новый алгоритм) в бой выявилась проблема с данными.

В итоге получалось, что алгоритм нужно дорабатывать, если данные/события меняются в таблицах.

В этот момент наш разработчик переехал в США, старт работы там снижал его заинтересованность в переписывании алгоритма в третий раз. Все были в легком отчаянии. Мы договорились зафиксировать структуру баз данных, проведя обучение внутри заказчика, полностью описав, как работает алгоритм.

Стало ясно, что внутри нужен такой человек, который будет технически понимать архитектуру продукта и как работает алгоритм, на основании каких данных и что ему нужно отдавать. Он будет специализироваться на этой работе и отдавать ей минимум на 80% рабочего времени. И будет «болеть» проектом.

Фото: Unsplash

Мы начали искать такого эксперта, чтобы он постоянно поддерживал проект. Нам повезло, что у заказчика был на примете сильный аналитик-разработчик, который стал заниматься data science.

Он работал до этого у заказчика и с радостью вернулся к работе, тем более именно отсутствие machine learning заставило выйти на время из компании (техническая команда заказчика распределена по регионам России).

После обучения он смог сделать так, что алгоритм был постоянно в рабочем состоянии и отдавал через интерфейс прогнозы по каналам, что позволило отключить часть трафика, который не окупился бы никогда.

Какие выводы мы сделали?

  • Нормализация данных и их «фиксация» – это базовое условие для быстрой реализации алгоритмов machine learning. Без этого ничего не работает.
  • Наличие в проекте драйвера в лице бизнеса и поддержки со стороны СТО – это необходимые условия, чтобы проект дошел до стадии «в бою».
  • Внутри компании заказчика должен быть человек, которому вы передадите алгоритм. Эта команда должна быть квалицирована или мотивирована на поддержку или сопровождение алгоритма. Без этого ваше детище не выживет.
  • В стадиях ведения проекта у нас был пункт «презентация, какой алгоритм выбран и как он работает, на основании каких данных» после разработки первого прототипа. Мы были в эйфории быстрого движения к цели и на драйве классного взаимодействия с СТО и командой заказчика в целом, так как на этапе нормализации данных дали пару-тройку инсайтов по продукту. Следуйте своему плану. Мы этот пункт пропустили и получили месяца два задержки и двойную разработку.

Как machine learning-команде нам интересны островки terra incognita в виде новых задач и, конечно, мы были не заинтересованы в change management и дополнительной тарификации заказчика.

Мы хотели запустить проект побыстрее, заняться следующими. Это наивность. Более строгое следование планам и четкость по почасовой тарификации вашей работы по time & material сделает вас трезвее и дисциплинированнее. Всем будет хорошо от такого четкого понимания.

Мне кажется, это нужно делать в любом аутсорсинге – таким образом все будут довольны и по срокам, и по результатам. Вы с заказчиком будете на одной волне, полностью понимая вашу полезность и соотношение value for money.


Материалы по теме:

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 «Магнит» создал собственную лабораторию искусственного интеллекта
  2. 2 Ozon открыл доступ к платформе разметки данных для машинного обучения и модерации контента
  3. 3 AI для HR: профиль кандидата, который повысит скорость найма в два раза
  4. 4 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
  5. 5 Машины не восстанут, но вылететь с работы можно: разбираемся, зачем осваивать нейросети
DION
Что ждет рынок корпоративных коммуникаций в 2024 году?
Подробнее