Что нужно знать начинающему дата-сайентисту

Вероника Елкина
Расскажите друзьям
Вероника Елкина

Дата-сайентисты сейчас особенно востребованы — их ищут компании самого разного размера. Но такие специалисты необязательно должны в первую очередь разбираться в глубинном обучении и обработке естественных языков. Например, развивающимся стартапам сильнее нужны эксперты, обладающие аналитическими навыками. Вот что советует изучать начинающим специалистам дата-сайентист и аналитик Питер Глисон.

Начните со статистики

Главную пользу в компании дата-сайентист приносит благодаря своему умению извлекать полезные данные из сложных. Для этого нужно научиться выделять смысл из хаотической информации.

Освойте статистический анализ. Он поможет вам:

  • Описать данные и предоставить детальную картину заинтересованным лицам.

  • Сравнить данные и проверить гипотезы, чтобы потом сообщить информацию для важных бизнес-решений.

  • Определять тренды и взаимосвязи, по которым можно будет сделать ценные прогнозы.

Будьте внимательны! Хуже скудной аналитики — только неправильная, поэтому важно хорошо понимать, как работает статистический анализ. К счастью, существует несколько ключевых принципов, которые помогут вам избежать ошибок.

Например, всегда относитесь к полученным результатам с долей критики и скептицизма. Возможно, тренды, которые вы нашли в данных, это всего лишь систематическая ошибка отбора? Правильно ли вы брали методологию? Совпадают ли ваши данные со всеми предположениями?

13 сентября в Москве состоится конференция по большим данным Big Data Conference. В этом году мы включили в программу не только лучшие кейсы от компаний, но и Big Data Hackathon для специалистов по анализу данных. Не пропустите!

От ваших предположений зависит то, какая информация окажется настолько «интересной», что ее стоит сообщить. Задумайтесь, о чем целесообразнее будет рассказать — о средних значениях или медиане набора данных.

Иногда важно знать, на какие методы не стоит полагаться. Существует несколько способов анализа данных, и необходимо работать с ними внимательно, чтобы избегать ошибок. Например, множественные сравнения всегда должны корректироваться, и ни в коем случае не нужно подтверждать гипотезу данными, с помощью которых вы ее вывели.

Проектирование данных (data engineering)

Большую часть работы дата-сайентиста занимает изучение и сортировка сырых данных для глубокого анализа. Гораздо меньше времени уделяется внедрению алгоритмов с нуля. Большинство статистических инструментов поставляется с готовыми R-пакетами и модулями на Python.

pic

Программирование

Помимо аналитических навыков и знаний в своей области, вам необходимо уметь работать с кодом. На вопрос, какие языки программирования должен знать дата-сайентист, нет единого ответа. По крайней мере, вам пригодятся Python и/или Rl.

Какой бы язык вы ни выбрали, постарайтесь ознакомиться со всеми его функциями и экосистемой. Изучите доступные пакеты и модули и настройте идеальную интерактивную среду разработки. Научитесь работать с API, необходимые для анализа основных платформ и сервисов вашей компании.

Ключевым элементом вашей работы станут базы данных. Научитесь понимать какой-нибудь из видов SQL. Если ваша компания пользуется базами данных вроде MongoDB, стоит изучить и их принципы работы.

pic

Фото: Unsplash

Коммуникация

Вы должны эффективно доносить полученные данные, руководствуясь следующими принципами:

  • Точность

  • Конкретика

  • Краткость

  • Доступность

Визуализация данных

Хорошо построенный график или схема может показать то, на что ушло бы несколько абзацев текста.

Есть множество платных и бесплатных инструментов для визуализации данных, например, Plotly, Tableau, Chartio, d3.js и другие. Если вам нужно быстро набросать таблицу, не отказывайтесь от таких проверенных средств, как Excel или Google Sheets.

pic

Фото: Unsplash

Когда вы создаете график, важно, чтобы на нем отображался максимум информации, но при этом сохранялась его «читабельность». Хорошая схема понятна с первого взгляда. Больше информации о том, как лучше составлять диаграммы и схемы вы найдете в книге Эдварда Тафти «Визуальное представление больших объемов информации».

Не забывайте постоянно учиться

Если вы дочитали до этого места и расстроились, что не обладаете ни одним из этих навыков, ничего страшного. Самое важный навык дата-сайентиста — это умение постоянно учиться и переучиваться. Индустрия стремительно развивается, и в ближайшие годы появятся новые фреймворки, инструменты и методы. Через пять-десять лет все полученные умения могут устареть — будьте к этому готовы. Выучите основы и постоянно узнавайте что-то новое — только так вы сможете удержаться на плаву.

Источник.


Материалы по теме:

Как выглядит типичный день дата-сайентиста в петербургском стартапе

Кто такой дата-сайентист и как им стать

Специалист по большим данным: где учиться и куда пойти работать

«Big Data — это большие деньги». Как начать зарабатывать на данных  


Актуальные материалы — в Telegram-канале @Rusbase

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter


Комментарии

Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
Big Data Conference
13 сентября 2018
Ещё события


Telegram канал @rusbase