Top.Mail.Ru
Истории

12 проектов по дата-сайенс, которые можно сделать за новогодние праздники

Истории
Дарья Сидорова
Дарья Сидорова

Редактор направления «Истории»

Дарья Сидорова

Праздничные дни — повод не только отдохнуть, но и изучить что-то новое. Начинающие и даже опытные специалисты по дата-сайенс могут заняться актуальными и интересными проектами. Предлагаем 12 вариантов, которые отлично подойдут для портфолио.

12 проектов по дата-сайенс, которые можно сделать за новогодние праздники
  1. Истории

Симуляции на Python

Они помогают развивать навыки в программировании и науке о данных. Более того, с ними интересно экспериментировать. Симулировать можно разные сценарии и факторы — для многих из них потребуется не более двухсот строк кода. Например, можно смоделировать пандемию и спрогнозировать ограничительные меры для населения.

Сложность: от самой легкой до невероятно сложной.

Вы научитесь:

  • Применять объектно-ориентированное программирование.
  • Симулировать случайности на Python.
  • Моделировать реальные сценарии.

Анализ розничной торговли

Применять дата-сайенс и программирование можно и в бизнесе. Прогноз количества продаж в праздничные дни позволяет понять, сколько товаров нужно произвести. Это очень важно, потому что, если их будет слишком много, они останутся лежать на полках, а если слишком мало — бизнес потеряет потенциальный доход.

Сложность: средняя.

С чего начать:

  • Набор данных можно найти здесь.
  • В этом видео от Analytics University представлены 10 проектов по науке о данных в розничной индустрии.

Вы научитесь:

  • Выполнять прогнозное моделирование, а также прогноз временного ряда.
  • Понимать бизнес-статистику.

Влияние пандемии на трафик аэропортов

Навыки в дата-сайенс можно также улучшать в реальных сценариях. За последние девять месяцев пандемия сильно повлияла на нашу жизнь, в особенности на международные путешествия. Проанализировать трафик аэропорта можно с помощью данных, указанных ниже.

Сложность: легкая.

С чего начать:

Вы научитесь:

  • Проводить исследовательский анализ данных.
  • Визуализировать данные.

Аналог Tweetdeck

Это инструмент, который позволяет отслеживать взаимодействия в профиле Twitter и выявлять различную информацию в реальном времени. С помощью API Twitter и инструмента для визуализации, например Dash или Streamlit, можно создать собственную платформу для аналитики в Twitter.

Сложность: средняя.

С чего начать:

  • Ознакомьтесь с Tweetdeck.
  • Научитесь взаимодействовать с API-интерфейсами и запрашивать ключ API из Twitter.
  • Изучите инструмент для создания визуализаций. Например, Dash или Streamlit.

Вы научитесь:

  • Работать с API-интерфейсами.
  • Создавать интерактивные панели мониторинга.

A/B-тестирование для показателей кликабельности (CTR)

A/B-тестирование — одна из самых полезных для бизнеса концепций в науке о данных. Однако в силу своей сложности она часто понимается неправильно. Определение показателей CTR — важнейшая метрика для любой компании, в которой есть команда по маркетингу. Она помогает оптимизировать онлайн-рекламу — от ее внешнего вида до общего посыла.

Сложность: средняя.

С чего начать:

  • Скачать набор данных для примера можно здесь.
  • Следуйте этой пошаговой инструкции.

Вы научитесь:

  • Проводить исследовательский анализ данных.
  • Выполнять правильное A/B-тестирование для CTR.

Рекомендательная система

Современные социальные платформы и агрегаторы контента используют невероятно сложные и постоянно развивающиеся алгоритмы. Чтобы понять, как они работают, можно построить собственный.

Сложность: средне-продвинутая.

С чего начать:

Вы научитесь:

  • Создавать рекомендательные системы.
  • Выполнять сингулярное разложение и разложение матрицы.

Веб-скрейпинг отзывов покупателей

Научиться собирать данные с сайта легко. Для примера можно извлечь информацию с сервиса Trustpilot, на котором представлены отзывы покупателей. Эти данные очень полезны для бизнеса: они помогают определить отношение потребителей к бренду и понять, какие аспекты стоит улучшить.

Сложность: легкая.

С чего начать:

  • Ознакомьтесь со структурой Trustpilot и выберите типы бизнесов, которые вы будете анализировать.
  • Воспользуйтесь пошаговой инструкцией по сбору отзывов с Trustpilot.

Вы научитесь:

  • Собирать данные с сайта.
  • Анализировать отзывы покупателей.
  • Применять обработку естественного языка (NLP) для получения полезной информации.

Сегментация клиентов

Возвращаемся к розничной аналитике. Теперь наша задача состоит в том, сгруппировать покупателей с помощью статистики и определить сегменты, на которые вы хотите нацелить бизнес.

Сложность: средне-продвинутая.

С чего начать:

Вы научитесь:

  • Применять методы кластеризации.
  • Выполнять снижение размерности.

Прогноз расхода энергии по временным рядам

Используйте данные о потреблении энергии с сайта региональной организации США PJM. С их помощью можно построить модель временных рядов, чтобы прогнозировать энергетический расход. Кроме того, эти данные пригодятся, чтобы выявить тенденции расходов по времени суток, праздникам и более длительным срокам.

Сложность: средне-продвинутая.

С чего начать:

  • Скачайте набор данных здесь.
  • Посмотрите руководство по созданию временных рядов с помощью Python.

Прогнозирование цен на акции

Допустим, вы хотите узнать, будут ли расти акции Tesla. Предсказать ценовую траекторию можно, используя прогноз временных рядов. Библиотека Prophet от Facebook значительно упростит эту задачу.

Сложность: средняя.

С чего начать:

Вы научитесь:

  • Лучше разбираться в построении временных рядов.
  • Использовать пакет Prophet от Facebook.

Прогнозирование лайков в Instagram

Не можете выбрать, какую фотографию опубликовать в Instagram, чтобы она получила больше положительных оценок? Принять решение поможет дата-сайенс.

Вы можете создать модель прогнозирования на основе нескольких факторов, таких как используемые хэштеги, длина описания и количество изображений в карусели. Затем протестируйте свои идеи на этой модели, отследите результаты и выявите подходящий формат, который, скорее всего, соберет больше всего лайков. Этот проект также подходит тем, кто заинтересован в машинном обучении.

Сложность: сложная.

С чего начать:

  • Не стоит слишком усложнять первую модель. Просто возьмите такие факторы, как яркость изображения, длина описания и прочие, который можно получить с помощью веб-скрейпинга или API Instagram.
  • Отформатируйте эти значения и используйте машинное обучение или модель прогнозирования, чтобы сопоставить их с данными по количеству лайков на каждый пост.
  • Теперь можно увеличить масштаб и расширить набор данных. Добавьте хэштеги, время публикации и прочую информацию и проанализируйте тысячи или даже сотни тысяч постов.
  • Это сложная задача, которую можно бесконечно масштабировать, поэтому не расстраивайтесь, если не получится с первой попытки.

Вы научитесь:

  • Собирать и очищать данные, а также манипулировать ими.
  • Создавать модели прогнозирования с использованием машинного обучения.

Сопоставитель резюме и описания вакансии

С его помощью можно определить, насколько близко резюме подходит к описанию вакансии. Чтобы его создать, воспользуемся техниками NLP, например латентно-семантическим анализом.

С чего начать:

Вы научитесь:

  • Использовать такие методы NLP, как латентно-семантический анализ и косинусное сходство.
  • Применять линейную алгебру и сингулярное разложение.

Источник.

Фото на обложке: Kashaeva Irina / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

FutureFood
Кто производит «альтернативную» еду
Карта