Top.Mail.Ru
YOUNG

Где изучать Data Science и что для этого нужно?

YOUNG
Георгий Бабаян
Георгий Бабаян

Основатель Elbrus Coding Bootcamp

Мария Передок

Основатель буткамп-школы Elbrus Coding Bootcamp Георгий Бабаян рассказал, какими навыками необходимо обладать для получения профессии Data Scientist. 

Data Science – одна из популярных современных IT-наук, которая занимается исследованием, анализом, моделированием и генерацией значимой информации из данных. Для многих компаний сегодня очевидна рентабельность инвестиций в этой области, а специалисты по анализу данных очень востребованы. 

Где изучать Data Science и что для этого нужно?

Лучшая профессия

На протяжении IT-бума конца 1990-х — начала 2000-х годов основное внимание уделялось «подъему и переносу» автономных бизнес-процессов в автоматизированные компьютерные системы. За два десятилетия последовательное создавался электронный контент и транзакция потоков журналов данных. На сегодняшний момент каждую секунду через сеть передается больше данных, чем было сохранено во всем интернете 20 лет назад.

Это означает, что многие организации сейчас буквально «сидят» на огромном объеме цифр и показателей, которые могут иметь большую ценность. Например, торговая сеть Walmart собирает более 2,5 петабайт данных каждый час по результатам транзакций своих клиентов.

Однако не во всех компаниях знают, какое применение найти своим данным: для этого требуются специалисты. Вот почему в недавно опубликованном списке Топ-50 лучших профессий США Glassdoor Data Scientist Job занимает второе место. И таких специалистов ищут не только технологические гиганты, теперь даже средние и небольшие стартапы обращают на них внимание. Фактически многие небольшие фирмы стремятся нанять специалистов по обработке данных начального уровня с приличной оплатой. Специалист таким образом может найти хорошую основу для оттачивания своих навыков.


Низкий барьер входа для новичков

Data Science — относительно молодая наука, поэтому здесь пока низкие барьеры входа для новичков. Заниматься анализом данных могут профессионалы из самых разных областей: многие специалисты пришли в Data Science из математики, статистики, информатики, инженерии и естествознания. Некоторые даже имеют ученые степени в области экономики, социальных наук и бизнеса. Переучиться или повысить свою квалификацию у них получилось на онлайн или офлайн-курсах.

Чтобы начать работать с данными, не надо обладать глубокими знаниями дифференциальной геометрии или нейросетевых архитектур. Data Science находится на стыке программирования, аналитики и математики. Нужно выучить или знать линейную алгебру, матанализ, теорию вероятности, математическую статистику примерно на уровне первого семестра первого курса технического вуза или даже проще. Поэтому достаточно прокачать математическую базу, познакомиться с основными алгоритмами и техниками, написать много работающего кода, посвятив себя практике.

Всему этому может научиться любой человек, у которого есть интерес к программированию и нет непреодолимого отвращения к формулам. Как и в любом процессе обучения, очень важной остается мотивация.

На что стоит обратить внимание при выборе курсов Data Science?

Если мотивация уже есть, осталось выбрать, где и как обучаться Data Science. Программы курсов все довольно похожие, отличия обычно кроются в деталях: проходят ли нейронную сетку или, наоборот, больше преподают аналитику и язык программирования SQL.

Чтобы определиться, не стесняйтесь разговаривать с выпускниками. На курсах должно быть большое количество практики, персональные и командные проекты, а программа охватывать широкий круг компетенций: анализ данных, SQL, Python, JavaScript, Java, Scala, R, классические алгоритмы машинного обучения, нейросети, big data.

Прежде чем выбирать, какой язык программирования изучать, прочитайте о плюсах и минусах каждого, где они чаще всего используются, а затем подумайте, какой из них подойдет именно вам. В науке о данных предпочтителен именно Python. Его простой синтаксис относительно легко изучить. Но что еще более важно: с его помощью можно обрабатывать гигантские наборы данных. Самым большим преимуществом Python является огромный объем доступных фреймворков и библиотек. 

Изучение алгоритмов машинного обучения раскроет перед вами больше профессиональных возможностей, и после окончания курсов вы сможете договориться о достаточно высокой зарплате на рынке. Будет большим плюсом, если получите набор навыков, включая контролируемое машинное обучение, нейронные сети, узнаете алгоритм «генеративно-состязательная сеть», что такое обучение с подкреплением, деревья решений и логистическая регрессия.

Статистика, теория вероятности — еще две темы, необходимые для будущего специалиста. Наука о данных использует алгоритмы для извлечения информации и идей, а затем принимает обоснованные решения на основе данных. Такие задачи, как оценка, прогнозирование и создание выводов, в некоторой степени неотделимы от вашей будущей работы. Статистика, теория вероятности помогут  создавать оценки для анализа данных: понимание взаимосвязи между двумя переменными, обнаружение аномалий в наборах данных, прогнозирование будущих тенденций.

В случае если выбранный курс по Data Science не дает весь спектр этих знаний, всегда сможете позже «добрать» интересующие сегменты.

Чтобы четко понимать программу будущего курса, необходимо постоянное общение с преподавателями. Также обратите внимание, чтобы педагог имел практический опыт работы с задачами из области Data Science. Если начинаете с нуля, то и курс должен быть не только для разработчиков и людей с техническим образованием. 


Деловые навыки

Сегодня «ученые данных» требуются не только за границей. В России эта профессия также очень востребована. Из больших компаний можно отметить, например, «Яндекс», Mail.ru Group, «Билайн», «Мегафон», «МТС», «Озон», «Авито», Сбербанк, «Альфа-банк», «Тинькофф». В последние годы практически в любой крупной компании появляются отделы Data Science, не говоря уже об огромном количестве AI-стартапов.

Конечно, если есть желание устроиться работать за границу, например в Европу или США, сделать это очень реально, даже в период пандемии.

Но тут стоит понимать, что наука о данных требует не только технических навыков. Работая в IT-индустрии, вы не должны забывать о деловых знаниях.

Вам необходимо хорошо знать область, в которой работает ваша компания. Изучите, какие проблемы хочет решить ваш будущий работодатель — только тогда вы сможете предложить ему новые способы использования данных его фирмы. Для этого вам потребуются обширные отраслевые знания в сочетании с пониманием того, как одно конкретное решение может повлиять на бизнес в целом. 

Хотя работа в области Data Science является всеобъемлющим термином, в его широком смысле доступны многие другие роли. Вы сможете заниматься рекомендательными системами, прогнозированием продаж и оттока клиентов, поведением клиентов в приложении или на сайте, компьютерным зрением, распознаванием лиц и обработкой потоков видеонаблюдения, анализом текстов (например, отзывы на продукты), чатботами, предсказанием поломок оборудования, оптимизацией цепи поставок и логистики, оптимизацией финансовых портфелей, медицинской диагностикой. Все зависит от конкретной позиции и задач.

Опрос разработчиков Stack Overflow 2019 года показал, что всего 7,9% разработчиков программного обеспечения во всем мире специализируются на больших данных и машинном обучении. Однако, если вы хотите стать выдающимся специалистом по обработке данных, вам надо расширять знания и быть в курсе самых последних тенденций, независимо от того, изучаете ли вы основы или уже занимаетесь Data Science годами.


Список рекомендуемых книг для самостоятельного изучения Data Science:

    1. Келлехер Джон Д. «Наука о данных. Базовый курс»
    2. Грас Джоэл «Data Science. Наука о данных с нуля»
    3. Су Кеннет, Анналин Ын «Теоретический минимум по Big Data. Все что нужно знать о больших данных»
    4. Джером Гарольд Фридман, Роберт Тибширани, и Тревор Хасти «Elements of Statistical Learning»

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Кибербезопасность, Data Science, гейминг или UX-дизайн: какую IT-специальность выбрать
  2. 2 «Мама говорила, что меня не возьмут на работу в 17 лет». История начинающего дата-сайентиста
  3. 3 Data Science: как растет сфера и какие профессии выбирать
FutureFood
Кто производит «альтернативную» еду
Карта