Колонки

Кто такой дата-сайентист и как им стать

Колонки
Александр Петров
Александр Петров

CTO E-Contenta

Светлана Зыкова

Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом.

О том, как приобщиться к этой профессии, рассказывает Александр Петров, CTO E-Contenta и руководитель математического курса GoTo Course.

Кто такой дата-сайентист и как им стать
Присоединиться

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.

Убедив руководство LinkedIn опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила рейтинг 25 лучших вакансий в США кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

В России потребность в специалистах по работе с данными тоже растет, хотя на рынке их по-прежнему немного.

Неудивительно, что сегодня так много желающих  освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Кто он, Data Scientist?

Вообще-то Data Scientist —  профессия, окруженная разными мифами. В глазах одних Data Scientists — это подобие шаманов, способных из «больших данных добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать —  умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist — это специалист, владеющий тремя группами навыков:

  1. IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий — аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

Сколько стоит специалист по данным

На сегодняшний день только треть спроса на Data Science специалистов может быть удовлетворена. Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области Data Mining или прогнозной аналитики, что ведёт к росту спроса и зарплат.

В США, согласно O’Reilly Media, уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.

Согласно исследовательскому центру рекрутингового портала Superjob, зарплатные предложения для специалистов без соответствующего опыта работы в Москве начинаются от 70 тысяч рублей, в Санкт-Петербурге — от 57 тысяч рублей.

Для следующего зарплатного уровня от соискателей потребуется наличие глубоких знаний методов статистического анализа данных, навыков построения математических моделей (нейронные сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.), а также опыт работы с большими массивами данных и умение выявлять закономерности. Для таких специалистов зарплата может достигать 110 тысяч рублей в Москве и 90 тысяч рублей в Петербурге.

Специалисты с опытом построения коммерчески успешных сложных моделей поведения целевой аудитории с помощью инструментов глубокого исследования данных (Data Mining) могут рассчитывать на максимальный доход. Для них зарплатные предложения в Москве — до 220 тысяч рублей, в Петербурге — до 180 тысяч рублей.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

На мой взгляд, лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: «Прикладная математика», «Информатика», «Математическая статистика».

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка. 

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков. Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях.


15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

В любом случае помните, что эта специальность потребует от вас глубоких знаний в области математической статистики, машинного обучения и программирования.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Заключение

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьезные теоретические знания и практический опыт нескольких профессий сразу. В любой компании такой специалист на вес золота. Чтобы достичь желаемых целей и постичь эту науку нужно упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

А еще бытует мнение, что лет через 10–20 любому менеджеру в продвинутой компании будет просто необходимо владеть хотя бы базовыми навыками Data Science. Как однажды рекрутер Линда Берч сказала в своем интервью Mashable: «Если вы не помешаны на данных, то через десять лет вам просто не найдется места в рядах начальников». Что ж, как говорится, поживем – увидим!


Материалы по теме:

Специалист по большим данным: где учиться и куда пойти работать

Топ-6 профессий для дизайнеров и производителей в 2030 году

Куда пойти учиться: образовательные программы в марте 2017 года

«Big Data — это большие деньги». Как начать зарабатывать на данных

Эти снимки показывают, что происходит в «мозгу» компьютера во время машинного обучения

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Что большая четверка мобильных операторов делает с нашими данными
  2. 2 Как оценить маркетиговую кампанию: 5 советов и кейсов по работе с Big data
  3. 3 «Покупая хороший шоколад со скидкой, я понял, что Big Data — это полезно»
  4. 4 Игроки ивент-индустрии хотят блокчейн, дополненную реальность и машинное обучение. Зачем?!
  5. 5 Главная технологическая повестка: куда смотрят лидеры индустрии?