Александр Петров

Специалист по большим данным: где учиться и куда пойти работать

Александр Петров, CTO E-Contenta, рассказывает, почему профессионалы в области обработки данных востребованы на рынке и где лучше работать специалистам по Big Data.


Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь.

Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:

  • история транзакций в банках;
  • данные о местоположении и маршрутах всех машин в таксопарке;
  • данные о наблюдении за звездами и планетами в обсерватории;
  • данные с камер, установленных на улицах города для наблюдения за автомобилями
  • и многое, многое другое.

Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.

Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.

В своей колонке я попытаюсь дать обзор направления обработки данных для тех, кто только начинает (или планирует начать) свой карьерный путь в этой области.




Какие есть специализации

Лично я выделил бы 3 основных направления, по которым можно развиваться в области обработки данных:

  • Data Engineer
  • Data Scientist
  • Data Manager

Рассмотрим каждое из них подробнее.


Data Engineer

Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.

Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).


Data Scientist

Data Scientist умеет находить закономерности в больших массивах данных,  хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.

Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:

  • «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
  • Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?».
  • Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.

Data Manager

Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.

Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).




Где можно работать в области обработки данных

Разберем различные типы компаний и особенности работы в них.

Крупные интернет-компании. В России это – «Яндекс», Mail.ru (и его подразделения «ВКонтакте» и «Одноклассники»), Rambler. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.

Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.

Но самый главный минус работы в крупных компаниях – это их размер: работа,  которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.

Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.

В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».

Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.

Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.

Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.

К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.




Где получить знания в области обработки данных


Вузы

К сожалению, пока что в вузах очень мало обучают анализу данных. Есть несколько исключений:


Конечно, и в других учебных программах также освещаются те или иные аспекты работы с данными. Но вузовские программы, которые готовят специалистов комплексно, на этом фактически исчерпываются. Неудивительно: отрасль совершенно новая, специалистов и преподавателей нет. Вузы, где все-таки вводятся программы по обработке данных, обычно делают это в сотрудничестве с крупными компаниями (например, «Яндексом»).


Некоммерческие курсы дополнительного образования

Так как на рынке наблюдается острый дефицит кадров – некоторые компании создают собственные учебные центры. Здесь может учиться любой желающий – нужно только сдать экзамены.

В этой категории можно смотреть на следующие курсы:

  • Школа Анализа Данных «Яндекса» – самый старый и самый известный центр подготовки кадров в области анализа данных. Занятия ведут сотрудники «Яндекса», а также преподаватели лучших вузов страны. Программа рассчитана на 2 года.
  • Техносфера Mail.Ru и факультета ВМиК МГУ – во многом аналогичная программа от второго интернет-гиганта, Mail.Ru. Также рассчитаная на 2 года.
  • Технопарк Mail.Ru и МГТУ им. Баумана – в отличие от «Техносферы», эти курсы больше рассчитаны на подготовку системных инженеров, однако курсу по анализу данных там тоже нашлось место. Срок обучения – 2 года.
  • Центр компьютерных наук – совместный проект Школы Анализа Данных «Яндекса», компании Jet Brains и школы №239 в Санкт-Петербурге. Срок обучения – также 2 года.
  • Петербургская школа данных – цикл лекций, посвященный большим данным, в Петербурге. Проект компании E-Contenta.

Коммерческие курсы

Есть несколько коммерческих программ, позволяющих расширить свой кругозор в области анализа данных. Их отличительные черты – короткий срок обучения и большая направленность на прикладное применение технологий.

Тут можно вспомнить следующие проекты:

  • Курс «Специалист по большим данным» от «Лаборатории Новых Профессий». Длится 3 месяца, состоит из 2 модулей, первый из которых посвящен технологиям больших данных и машинному обучению, а второй –рекомендательным системам. Стоимость курса – 180 тысяч рублей, предусмотрены различные скидки и рассрочки.
  • «Школа данных Билайна» – курс, в первую очередь, посвящен Machine Learning Продолжительность обучения – 9 недель, стоимость – 100 тысяч рублей.

 


Онлайн-образование

В последнее время отрасль онлайн-образования переживает настоящий бум, и на ресурсах вроде Coursera, Edx, Stepic и Udacity можно найти огромное число курсов по обработке данных. Большинство – англоязычные (кстати, знание английского языка очень полезно в нашей области), но есть и несколько русскоязычных:




Заключение

В этой колонке я собрал актуальную на текущий момент информацию на рынке труда в области больших данных.

Смотря в будущее – нет никаких оснований полагать, что спрос на специалистов упадет в ближайшие несколько лет. Что это значит? Если вас интересует область анализа данных, то, получив образование и опыт в данном направлении, вы будете ценным специалистом на рынке труда и точно не останетесь без работы.

Надеюсь, статья помогла вам определиться со своими интересами и понять, с чего начать обучение. 

 


Материалы по теме:

На платёжных картах «Старбакс» больше денег, чем на счетах американских банков

Большие данные должны приносить практическую пользу бизнесу – или умереть

Специалисты по big data могут зарабатывать космические суммы

Курсы и полезные ссылки по теме data science


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно