Как выглядит типичный день дата-сайентиста в петербургском стартапе

Ольга Плиева
Ольга Плиева

Редактор Rusbase

Расскажите друзьям
Ольга Плиева

В редакцию Rusbase написала дата-сайентист Мария Мацкевичус из петербургского технологического стартапа F-ScoreLab. Компания занимается скорингом — оценивает кредитоспособность клиентов с помощью данных и машинного обучения. Мария рассказала о том, как попала в стартап, что конкретно делает на работе и сколько получает.

Расскажите о себе. Как вы попали в стартап?

Я учусь на четвертом курсе в СПбГЭУ на факультете экономики. Мой профиль — математические методы в экономике и статистический анализ. О F-ScoreLab я узнала, когда к нам на лекцию пришел мой будущий руководитель и сказал, что ищет стажеров в свой стартап. Он дал нам достаточно сложное тестовое задание. Со мной писало человек десять, а прошло только трое.


Из чего состояло тестовое задание?

Надо было построить модель, которая предсказывала вероятность дефолта у заемщика, то есть возможность того, что он не сможет выплатить кредит. Нас не ограничивали в форме или методе решения, но наметили основные этапы работы: чистка данных (data cleaning), генерация переменных (feature engineering), построение и обучение модели (model selection and training), оценка качества работы модели (model evaluation).

Я выполнила тестовое задание, через два дня мне предложили пообщаться по Skype для обсуждения стажировки. Она длилась месяц и была оплачиваемой. Я работала, как и сейчас, на позиции дата-сайентиста, затем меня оформили в штат. Со мной было три стажера, но нас осталось двое.


Что конкретно делает аналитик F-ScoreLab?

Я работаю с клиентом с самого начала, как он приходит к нам: мы встречаемся, обсуждаем цели проекта и пытаемся понять, можем ли решить его задачу. Цели бывают разные: снижение просрочки, оптимизация затрат, ставки. Когда становится понятно, что нужно сделать, мы строим модель на основе имеющихся данных клиента. Я получаю данные в привычном для меня формате csv или excel. Суть в том, что наша компания берет «мучения» по их транспортировке и обработке на себя: мы извлекаем информацию из баз данных и приводим к нормальному виду.

Моя задача – данные очистить и привести к наиболее интерпретируемому виду. Этот процесс называется чистка данных (data cleaning). В них встречается много ошибок, пропущенных значений: например, в колонке «должность» может быть 159 значений «водитель» и одно значение «вдитель» с пропущенной буквой. Это ошибки ручного ввода. Обычно чистка данных занимает около 80% времени работы от построения модели. Ошибки я исправляю не вручную – пишу функции для них или использую написанные ранее. Данные всегда большие, а набор, с которым я сейчас работаю, составляет около полумиллиона строк.

Следующий этап – генерация переменных (feature engineering). Для меня он самый интересный, так как требует креативности и понимания жизненных ситуаций. Нужно придумать переменные, которые затем будешь «скармливать» моделям. Это могут быть имеющиеся данные о заемщике: пол, возраст, кредитные истории, и, например, какие-то нетрадиционные данные вроде биометрии. Из них уже можно рассчитать соотношение расходов и доходов заемщика (уровень финансовой устойчивости), отношение доходов к совокупным долгам и другие производные переменные. Можно использовать новые переменные для построения моделей. Иногда это работает хорошо, иногда – нет. Надо просто пробовать.

Я также считаю, что важно понимать жизненные ситуации. Они объясняют, почему люди вносят или не вносят платежи вовремя и показывают, какую информацию запросить, чтобы предсказания модели были точнее. Конечно, можно не строить гипотез, а просто «скормить» данные модели и посмотреть на 20 наиболее информативных переменных. Но у нас в компании постоянно ищут новые источники информации. Мы дополняем данные, полученные от кредитных компаний, то есть добавляем новые переменные (столбцы). Например, рассчитываем геопозицию, определяем количество людей, живущих в данном месте, добавляем макроэкономические данные: уровень безработицы, отношение валют. Если у заказчика есть фотографии заемщика, мы анализируем и их с помощью нейросети, то есть применяем данные биометрии.

Следующий этап – это построение и обучение модели (model selection).

Процесс выглядит так: у нас есть данные из прошлого, например, кредитная история клиента, места работы, заработная плата и так далее. Они называются предикторами. На их основе мы будем делать предсказание (от англ. to predict). То, что мы хотим предсказать, называется таргетной переменной. Если есть данные из прошлого, то мы знаем и таргетную переменную: это количество дней просрочки для каждого заемщика. На основе этих данных мы обучаем модель, чтобы она предсказала будущее. Используя предикторы и таргеты, она найдет закономерности, которые показывают кредитоспособность клиента. Например, сейчас не дают кредит людям со стажем работы на нынешнем месте меньше 3 месяцев. Прошлый опыт показывает, что такие клиенты чаще просрочивают кредит.

Благодаря тому что данных нам предоставляют много, а компьютеры работают лучше кредитного специалиста, мы отыскиваем эти закономерности быстрее.

При обучении модели мы также находим закономерности, которые человек не видит, хотя эта информация есть в данных. К примеру, удаленность населенного пункта от административного центра. Чем ближе дом клиента к последнему, тем больше вероятность того, что кредит он выплатит вовремя.

Помимо основных обязанностей, я пишу пресс-релизы и статьи о том, как лучше хранить и обрабатывать данные.

Какая у вас зарплата? Из чего она складывается?

В среднем дата-сайентисты [в Петербурге] получают от 60000 рублей в месяц, но у меня пока не такой большой опыт работы — я получаю 40000 рублей. В виде надбавок у нас идут проценты с увеличения прибыли клиента, который использовал нашу модель. Благодаря этому я тоже получаю плюс к зарплате, примерно 2-5%.


Расскажите о преимуществах работы в стартапе

Самое главное для меня — свободный график. К тому же я могу работать из любого места. Как-то раз друзья позвали за город, а у меня при этом была незавершенная работа. Я взяла с собой ноутбук, одновременно работала и проводила время с друзьями.

Еще один плюс для меня — это то, что здесь учат всему необходимому. Когда я проходила стажировку, то каждый день звонила техническому директору и говорила, что сделала, что должна сделать, и мы обсуждали мою работу. У нас в компании заинтересованы в молодых людях и их креативности.


В чем сложности работы в стартапе?


Меня пугает большой объем ответственности. Особенно сильно это проявлялось во время стажировки. Но я всегда обращалась к кому-то более опытному и согласовывала с руководством каждый шаг.

Также в технологическом стартапе нужны быстрообучаемые люди, поэтому здесь вряд ли смогут работать те, кто медленно усваивает информацию и знания.

Вспомните самый адский день вашей работы

Я расскажу про конкретный случай. Когда это произошло со мной впервые, я была в шоке. Мне нужно было обработать информацию, которой, как обычно, было много. Я запустила процесс вычисления. Сначала прошло два часа, а модель все вычислялась, потом еще два — ничего. Тогда я оставила ноутбук работать на ночь. Утром я ожидала увидеть результат, но вычисления продолжались! Ничего не изменилось и к вечеру: на экране все так же мелькали строчки с перебором параметров. Прошло около 35 часов, в течение которых я держала ноутбук на постоянной подзарядке, не закрывая его. В конце концов терпение лопнуло, и я остановила процесс. Оказалось, проблема заключалась в том, что я допустила ошибки в настройках процесса. Потом это, конечно же, исправили, но случай был запоминающийся.

Самое главное — вовремя остановиться, как тогда заметил мой технический директор.


Что насчет карьерных планов?

Я продолжу заниматься анализом данных, пробуя новые задачи. Это не только кредитный скоринг, но и дата-сайенс в сфере страхования, погоды, залежей нефти и газа, оттока абонентов и так далее. Если смотреть совсем в далекое будущее, то вижу себя IT-консультантом в крупной компании, такой как IBM или Accenture.

Фотографии: Unsplash.com

Если вы хотите поделиться опытом работы в крупной компании или маленьком стартапе, рассказать о перипетиях своей карьеры и раскрыть секреты профессии, пишите на careerist@rb.ru. Лучшие рассказы опубликуем на Rusbase.

Материалы по теме: 

Кто такой дата-сайентист и как им стать

Как большие данные преобразили жизнь маленького американского городка

Как проходят стажировки в Tesla: опыт американского студента

Как fraud-скоринг увеличит выдачи кредитов на 50%


Самые актуальные новости - в Telegram-канале Rusbase


Комментарии

Комментарии могут оставлять только авторизованные пользователи.
IT Synergy
23 ноября 2017
Ещё события


Telegram канал @rusbase