Top.Mail.Ru
Истории

Что нужно знать начинающему дата-сайентисту

Истории
Вероника Елкина
Вероника Елкина

Ex-Редактор «Историй»

Вероника Елкина

Дата-сайентисты сейчас особенно востребованы — их ищут компании самого разного размера. Но такие специалисты необязательно должны в первую очередь разбираться в глубинном обучении и обработке естественных языков. Например, развивающимся стартапам сильнее нужны эксперты, обладающие аналитическими навыками. Вот что советует изучать начинающим специалистам дата-сайентист и аналитик Питер Глисон.

Что нужно знать начинающему дата-сайентисту

Начните со статистики

Главную пользу в компании дата-сайентист приносит благодаря своему умению извлекать полезные данные из сложных. Для этого нужно научиться выделять смысл из хаотической информации.

Освойте статистический анализ. Он поможет вам:

  • Описать данные и предоставить детальную картину заинтересованным лицам.
  • Сравнить данные и проверить гипотезы, чтобы потом сообщить информацию для важных бизнес-решений.
  • Определять тренды и взаимосвязи, по которым можно будет сделать ценные прогнозы.

Будьте внимательны! Хуже скудной аналитики — только неправильная, поэтому важно хорошо понимать, как работает статистический анализ. К счастью, существует несколько ключевых принципов, которые помогут вам избежать ошибок.

Например, всегда относитесь к полученным результатам с долей критики и скептицизма. Возможно, тренды, которые вы нашли в данных, это всего лишь систематическая ошибка отбора? Правильно ли вы брали методологию? Совпадают ли ваши данные со всеми предположениями?

От ваших предположений зависит то, какая информация окажется настолько «интересной», что ее стоит сообщить. Задумайтесь, о чем целесообразнее будет рассказать — о средних значениях или медиане набора данных.

Иногда важно знать, на какие методы не стоит полагаться. Существует несколько способов анализа данных, и необходимо работать с ними внимательно, чтобы избегать ошибок. Например, множественные сравнения всегда должны корректироваться, и ни в коем случае не нужно подтверждать гипотезу данными, с помощью которых вы ее вывели.

Проектирование данных (data engineering)

Большую часть работы дата-сайентиста занимает изучение и сортировка сырых данных для глубокого анализа. Гораздо меньше времени уделяется внедрению алгоритмов с нуля. Большинство статистических инструментов поставляется с готовыми R-пакетами и модулями на Python.

pic

Программирование

Помимо аналитических навыков и знаний в своей области, вам необходимо уметь работать с кодом. На вопрос, какие языки программирования должен знать дата-сайентист, нет единого ответа. По крайней мере, вам пригодятся Python и/или Rl.

Какой бы язык вы ни выбрали, постарайтесь ознакомиться со всеми его функциями и экосистемой. Изучите доступные пакеты и модули и настройте идеальную интерактивную среду разработки. Научитесь работать с API, необходимые для анализа основных платформ и сервисов вашей компании.

Ключевым элементом вашей работы станут базы данных. Научитесь понимать какой-нибудь из видов SQL. Если ваша компания пользуется базами данных вроде MongoDB, стоит изучить и их принципы работы.

pic

Фото: Unsplash

Коммуникация

Вы должны эффективно доносить полученные данные, руководствуясь следующими принципами:

  • Точность
  • Конкретика
  • Краткость
  • Доступность

Визуализация данных

Хорошо построенный график или схема может показать то, на что ушло бы несколько абзацев текста.

Есть множество платных и бесплатных инструментов для визуализации данных, например, Plotly, Tableau, Chartio, d3.js и другие. Если вам нужно быстро набросать таблицу, не отказывайтесь от таких проверенных средств, как Excel или Google Sheets.

pic

Фото: Unsplash

Когда вы создаете график, важно, чтобы на нем отображался максимум информации, но при этом сохранялась его «читабельность». Хорошая схема понятна с первого взгляда. Больше информации о том, как лучше составлять диаграммы и схемы вы найдете в книге Эдварда Тафти «Визуальное представление больших объемов информации».

Не забывайте постоянно учиться

Если вы дочитали до этого места и расстроились, что не обладаете ни одним из этих навыков, ничего страшного. Самое важный навык дата-сайентиста — это умение постоянно учиться и переучиваться. Индустрия стремительно развивается, и в ближайшие годы появятся новые фреймворки, инструменты и методы. Через пять-десять лет все полученные умения могут устареть — будьте к этому готовы. Выучите основы и постоянно узнавайте что-то новое — только так вы сможете удержаться на плаву.

Источник.


Материалы по теме:

Как выглядит типичный день дата-сайентиста в петербургском стартапе

Кто такой дата-сайентист и как им стать

Специалист по большим данным: где учиться и куда пойти работать

«Big Data — это большие деньги». Как начать зарабатывать на данных  

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
  2. 2 Цифровые двойники: как работают, зачем нужны и как смоделировать своего
  3. 3 С какими сложностями может столкнуться компания при внесении данных в IT-системы и как упростить этот процесс
  4. 4 Помощь агробизнесу. Как Big data улучшает работу сельхозпредприятий
  5. 5 Как использовать Big Data & AI для увеличения потока клиентов: кейс с крупным банком