Некоторые специалисты по big data могут зарабатывать космические суммы



Rusbase взял интервью у Сергея Марина — руководителя отдела больших данных в компании «Вымпелком» (бренд «Билайн»). В разговоре с Сергеем мы хотели разобраться, что же такое анализ больших данных, и чем он отличается от любой другой бизнес-аналитики.
Клиентскую аналитику операторы используют уже чуть ли не 10 лет… И почему-то сейчас они стали называть это термином «big data»… Где все-таки заканчивается аналитика, и начинаются «большие данные»?

Раньше было то, что называют BI (business intelligence). Это можно назвать управленческой отчетностью: сколько новых клиентов подключили, каков потенциальный отток и т. д. Можно было узнать, сколько людей пришло, но нельзя было понять, кто они такие. Когда появилась возможность хранить гигантские объемы памяти — тогда получилось «спуститься» до уровня каждого абонента.
Вот два примера, чтобы понять разницу. Возьмем проверку качества связи.

Не big data: контроллеры на базовых станциях генерируют отчёты. Отчеты показывают, сколько сбоев было на каждой базовой станции.

Big data: а сколько было сбоев у конкретного клиента? Клиент ведь уходит не из-за сбоев на станции, а потому что у него лично было много сбоев.
Конечно, в big data используется много тех же приемов, что и в простой бизнес-аналитике. Однажды я возил в США группу бизнесменов, которые хотели познакомиться с большими данными. Они посмотрели, а это все та же аналитика. «А где наши миллиарды?» — возмущались они. Какие миллиарды? Чтобы большие данные приносили бизнесу миллиарды, нужно с ними долго и усердно работать, как и с любой другой аналитикой.

Вы говорите — «спуститься до уровня каждого клиента». Но вы же все равно сегментируете клиентов...

Big data позволяет таргетированно о чем-то информировать клиентов. Если у абонента было много сбоев в связи, то мы можем именно ему что-то предложить, чтобы он остался с нами. Например, скидку. Или показать клиенту персональный вид сайта «Билайн» с интересными конкретно для него предложениями, акциями.

Это большие данные? Это какие-то «каждый клиент»-данные.


Ну так клиентов больше 50 миллионов. Отсюда и большие данные.

Раньше нужно было проектировать: как получить данные о каждом абоненте и при этом не перегрузить всю систему? Сейчас они хранятся в сыром виде, обработка занимает гораздо меньше времени.
Граница находится здесь: использование данных должно нести пользу клиентам
Исторически у всех операторов была аналитика, но она строилась в одном каком-то подразделении, в основном для таргетированных кампаний. А сейчас отдел аналитики может взаимодействовать со всеми подразделениями — это еще одно отличие больших данных. Big data помогает и в борьбе с мошенничеством, и в увеличении продаж, и в планировании офисов. Анализ больших данных помогает блокировать мошенников быстрее, чем раньше: не за три дня, а за три минуты.

Поговорим об этичности использования персональных данных — по сути, слежения за человеком…

Есть законы «О связи» и «О персональных данных», которые мы соблюдаем. Информацию, относящуюся к тайне связи, личной жизни, не обрабатываем. Закон позволяет нам анализировать массив данных на уровне клиента, если это используется для предоставления абоненту услуг связи. «Приди в соседний офис и получи там скидку» — это тоже исполнение договора об оказании услуг связи.

С моей точки зрения, граница находится здесь: использование данных должно соответствовать законодательству и нести пользу клиентам. Если наша смс не принесла вам пользу — вы имеете полное право возмущаться.

Банки, операторы, магазины, соцсети нас исследуют — человек становится жертвой больших данных?

Вы везде подписываете соглашение. В соглашениях указано, что «мы имеем право хранить и обрабатывать ваши данные». А у банка ещё написано, что он имеет право предоставлять эти данные третьим лицам с целью верификации вашей платежеспособности, кредитной истории. С точки зрения закона, вы сами на все соглашаетесь. А дальше уже встает вопрос этичности. И здесь компании должны уметь правильно обращаться с данными, чтобы они никуда не утекали и т. д.
Хотим знать кейсы: как «Билайн» использует большие данные?

Опишу несколько кейсов.

Геоаналитика (оператор связи может знать местоположение абонентов — прим. Rusbase). Например, мы знаем, что в такой-то зоне часто появляются люди с iPhone 6, то есть они любят 4G — значит, нужно построить здесь LTE-базовую станцию. В другом месте хватит 2G. Мы не отслеживаем местонахождение конкретных абонентов. Обрабатываются обезличенные данные для статистических целей.

Еще пример: у вас есть два устройства — телефон и планшет. Нам важно знать, что вы один и тот же человек. Мы называем это «мультидевайсом». Если две сим-карты постоянно регистрируются в одних и тех же секторах базовых станций — мы можем сделать вывод, что они принадлежат одному человеку, и предложить ему специальный тариф, который позволяет оплачивать услуги для разных сим-карт с одного счета.

И это всё автоматически?


Ну конечно.

Еще один, самый старый кейс: человек приезжает в аэропорт, и ему предлагается подключить роуминг. Почему в аэропорту? Потому что многие люди прилетают в другую страну и просто отключают телефон, якобы дорого платить за связь. А мы можем это предотвратить: заранее показать возможности роуминга.

Есть кейсы по предотвращению звонка в колл-центр. Допустим, у клиента прошло списание средств. Мы знаем, что он в таких случаях всегда звонит и выясняет, куда делись деньги. Мы отправляем смс: деньги сняли за это. И он успокаивается до кого, как позвонил.

Мы делаем разного рода сегментацию: по полу, по возрасту и т. д. Правда, не на основании паспортных данных. Они довольно часто неточны.

Что значит — «неточные данные»?

Допустим, сим-карты моих родителей записаны на меня. У кого-то номера записаны на бабушку или дедушку. Поэтому мы строим модели, чтобы система сама могла определять пол и возраст, не опираясь на паспортные данные.
Обменивается ли «Билайн» сырыми данными с другими компаниями и агентствами?

Нет. Это запрещено законом, мы такого не делаем.

Вот я общаюсь с другими компаниями, а они говорят: да, мы покупаем сырые данные у операторов. Спрашиваю у операторов — никто ничего не продает…


У меня есть доступ к нашим данным, и я вижу, что они никуда не сливаются. Отдать сырые данные — нетривиальная задача. Можно попробовать слить данные за один месяц — ну да, человеческий фактор, кому-то могут заплатить… Но постоянно это делать невозможно — слишком большие объемы. Это не «взял и унес жесткий диск».

Планирует ли «Билайн» продавать собственные маркетинговые исследования?

Да. Когда именно мы это запустим — не скажу. Скоро узнаете.

Это будут исследования по индивидуальным заказам? Или это будет система для автоматической выгрузки отчетов?

По заказам — будут. Автоматическая выгрузка… Здесь много юридических вопросов. Допустим, вы открываете магазин и хотите понять, в каком месте проходит больше людей. Если мы вам говорим: в этой зоне сегодня прошли 10 тысяч человек, им от 18 до 35 лет — это нормально, это обезличенные данные. А если там пройдет только один человек? Тогда возникает возможность установить его личность. И это уже незаконно.
Какое образование помогло вам в анализе данных больше всего?

Давайте начнем с того, кто такие специалисты по большим данным? Первое – они разбираются в машинном обучении.
Я всегда привожу пример с ребенком. Как он учится отличать мальчика от девочки? Он встречает много мальчиков и много девочек. В голове у ребенка складываются внутренние алгоритмы. Покажи ему нового человека — он сразу определит, мальчик это или девочка. То же самое с машинным обучением. Мы даем компьютеру часть базы и проставляем напротив каждого абонента: мальчик, девочка, мальчик. А компьютер учится определять сам.
Второе — они должны разбираться в бизнесе. Сегодня вы работаете с антифродом, завтра — анализируете что-то для розничного бизнеса. Можно сказать, что каждый день — новый заказчик. У каждого заказа множество своих нюансов.

Например, у меня просят построить модель оттока. Первым делом я спрашиваю: что вы будете делать с оттоком? Обзванивать абонентов? Тогда нужно делать предиктивную модель, чтобы «ловить» людей, пока что они еще не отключились. Второе: что считать оттоком? Человек два месяца не пользовался сим-картой? А может, он просто в отпуск уехал? Что тогда считать оттоком? И так далее. Нужно уметь замечать такие детали в разных бизнесах.

Что касается, моего образования: я окончил ВМК МГУ и получил степень MBA в МШУ «Сколково». Могу сказать, что с точки зрения больших данных бизнес-образование мне помогло больше. Потому что благодаря ему я могу определять, какие задачи нужно решать бизнесу.
Зачем «Билайн» открыл Школу больших данных?

Мы основали школу с тремя целями. Первая — готовить специалистов для себя. Вторая — развивать рынок. Зачем его развивать? Потому что мы взаимодействуем со многими компаниями на тему аналитики. Важно, чтобы там нас понимали не только технические специалисты, но и менеджеры организаций. Поэтому, помимо технического курса, мы читаем курс для менеджеров, разработанный специально для управленцев. Им не нужно уметь программировать, но нужно знать, как правильно управлять или использовать ресурс аналитики (cейчас идет набор на курс, который начинает заниматься 12 апреля — прим. Rusbase). Третья причина: благодаря школе мы можем позиционировать себя как центр экспертизы.

Специалистов на рынке очень мало. В институтах учат математике, объясняют, как работают алгоритмы. Но это то же самое, как знать строение молотка, но ни разу не попробовать с ним поработать. Знание устройства машины не помогает водить авто. В России мало мест, где учат именно «водить».

А от кого шла инициатива создания школы?

От департамента инновационных аналитических продуктов.

Как долго вам утверждали открытие собственной школы? Интересно, как в крупной компании идет процесс: менеджер может предложить идею, и ее запустят…

В марте прошлого года я пришёл с этой идеей, а в октябре стартовали первые занятия. Я, конечно, думал, что запустим все за 2 месяца. Опасался, что появятся какие-то конкуренты. Знаю другие компании, у которых так и не получилось запустить свою школу. Так что мы справились неплохо.

А много еще школ может появиться?


Многие попытаются. Но проблема будет в нехватке специалистов-преподавателей. Знаю одно известное учебное заведение, которое отказалось от идеи школы больших данных как раз по этой причине.

Кроме того, когда будут открываться новые школы, у нас уже будет преимущество — опыт. Потому что все познается в процессе: как подавать материал, что изучать в классе, а что оставить на дом. И в каком объеме менеджерам дать программирование, а технарей — научить представлять результат своей работы. Новые школы будут только учиться, а мы уже знаем ответы на эти вопросы.
На фото: Сергей Марин, руководитель отдела больших данных в компании «Вымпелком» (бренд «Билайн»)
Сколько людей работает в отделе больших данных в «Билайне»?

Около 100.

А где вы их набирали?

Есть люди, которые отвечают за подготовку данных — 60—70% всей работы — это программисты. Набрали по рынку, как и других разработчиков. А вот именно дата-специалистов собирали по одному, в основном через знакомых.

А еще мы арендовали машины Tesla, забрендировали их под «Билайн». Наняли двух симпатичных девушек с «большими данными». Они парковались около офисов крупных компаний, танцевали, а когда к ним подходили знакомиться — задавали математические задачки. Если парень справлялся с задачей, его подвозили бесплатно на Тесле до любого места. Попутно спрашивая его контакты и предлагая попробовать себя в «Билайне».

Второе: мы делали конкурс на «Хабре», в стиле конкурсов на Kaggle (на этом ресурсе тусуются аналитики больших данных). Опубликовали задачку, где нужно было предугадать возраст клиента. Так мы привлекли много специалистов. Планируем запустить площадку с такими конкурсами на постоянной основе.

А у специалистов по большим данным зарплата выше, чем у других менеджеров?

У самих дата-специалистов зарплаты сильно разнятся между собой. Так что тут нельзя дать ответ.

Зависит от звездности специалиста?

Да, есть такой фактор. Но при этом есть хорошие специалисты, которые получают не очень большие деньги, а есть средние специалисты, которые зарабатывают космические суммы. Почему такой разброс? Потому что если ты сам не умеешь «работать молотком», то ты не понимаешь, как эту работу оценивать. Тебе показывают результаты, а весь остальной «космос» остается загадкой.

В каких сферах лучше делать стартапы с большими данными?

А нужно ли вообще делать стартапы с использованием аналитики больших данных? Лучше посмотреть: где в вашем текущем бизнесе уже есть место для применения больших данных? Где вы уже собираете сырые данные? Что благодаря этим данным можно выяснить? Там и делать.

Rusbase рекомендует этих поставщиков по big data.
Элина Кириллова