Добавьте их в портфолио: 10 проектов по дата-сайенс для начинающих
Они помогут продемонстрировать нужные навыки
Дата-сайентисту очень полезно проводить самостоятельные исследования. Это не только отличная практика, но и способ доказать потенциальному работодателю: вы не только знаете названия библиотек, но и владеете всеми нужными навыками. Представляем подборку несложных и интересных проектов, которые подойдут для начинающих.
Сбор данных
Подготовка датасета — один из важнейших навыков для дата-сайентиста.
Изучив бизнес-задачу, он собирает нужные данные с помощью API или агрегатора. После этого датасет очищают и переводят в формат, который можно загрузить в модель. На это уходит больше всего времени.
Эти проекты помогут продемонстрировать владение этими навыками.
Сайт с отзывами на доставку еды
Инструкция: Zomato Web Scraping with BeautifulSoup
Язык: Python
Это интересный и практический опыт. От вас требуется создать агрегатор, который соберет все отзывы со страниц сайта и поместит их в датафрейм.
Данные можно использовать для построения модели сентимент-анализа и классифицировать отзывы, отметив их как позитивные или негативные.
Сайт с онлайн-курсами
Инструкция: Build a Web Scraper with Python in 8 Minutes
Язык: Python
Хотите пройти онлайн-курс по дата-сайенс? Чтобы выбрать лучший, не нужно листать сотни отзывов. Для этого достаточно агрегировать отзывы с сайта и загрузить их в датафрейм.
Дополнительно можно подготовить визуализацию переменных, таких как цена и рейтинг.
Также попробуйте составить модель сентимент-анализа и определить общее впечатление от каждого курса.
Бонус: сбор данных по хэштегу Twitter
Потренируйтесь собирать информацию при помощи API или иного внешнего инструмента. Этот опыт обязательно пригодится. Большинство компаний, которые используют информацию от третьих лиц, часто покупают доступ к API, и дата-сайентист собирает данные с помощью внешнего интерфейса.
В качестве тренировки используйте API Twitter и создайте датафрейм с данными по определенному хэштегу.
Разведочный анализ данных
После подготовки датасета нужно провести анализ всех переменных: оценить, как они распределяются и взаимодействуют друг с другом. Также важно уметь отвечать на вопросы с помощью доступных данных.
Дата-сайентист очень часто выполняет подобные задачи — пожалуй, даже чаще, чем занимается предиктивным моделированием.
Определение факторов риска сердечных заболеваний
Датасет: The Framingham Heart Study
Инструкция: The Framingham Heart Study: Decision Trees
Язык: Python или R
В наборе данных содержатся такие предикторы, как холестерин, возраст, диабет и семейная история болезни, которые помогают прогнозировать, когда пациент может испытывать проблемы с сердцем.
С помощью Python или R можно проанализировать связи и ответить на следующие вопросы.
- Являются ли диабетики более склонными к развитию сердечных заболеваний в раннем возрасте?
- Существует ли определенная демографическая группа, у которой риск возникновения сердечных заболеваний выше, чем у других?
- Снижают ли частые упражнения риск возникновения сердечных заболеваний?
- Правда ли, что курильщики более склоны к возникновению сердечных заболеваний?
Всемирный доклад о счастье
Датасет: World Happiness Report
Инструкция: World Happiness Report EDA
Язык: Python
Составители Всемирного доклада о счастье отслеживают 6 метрик — продолжительность жизни, экономику, социальную поддержку, отсутствие коррупции, свободу и щедрость.
Вот что можно узнать, анализируя набор этих данных.
- Какая страна самая счастливая в мире?
- Какие факторы больше влияют на счастье страны?
- Уровень счастья в мире растет или падает?
Самые успешные дата-сайентисты, как правило, отличаются любопытством: они постоянно ищут связи и задают вопросы. Проекты, подобные этому, помогают улучшить аналитическое мышление и отточить необходимые навыки.
Визуализация данных
На работе дата-сайентист регулярно должен представлять свои результаты не только техническим специалистам, но и клиентам или руководству. Проще всего сделать этого с помощью визуализации.
Интерактивная панель поможет лучше продемонстрировать ваши выводы, потому что графики понятны с первого взгляда.
Многие компании указывают визуализацию данных как необходимый навык для вакансий, связанных с дата-сайенс.
Статистика Covid-19
Датасет: Covid-19 Data Repository at Johns Hopkins University
Инструкция: Building Covid-19 Dashboard with Python and Tableau
Язык: Python
Сначала нужно будет обработать набор данных при помощи Python. Для оформления результатов используйте Tableau.
Это один из самых востребованных инструментов визуализации данных, знание которого необходимо для большинства стартовых позиций в дата-сайенс.
Если в вашем портфолио будет присутствовать проект с Tableau, это поможет вам выделиться среди других кандидатов и продемонстрировать свое владение этой программой.
Рейтинг фильмов с портала IMDB
Датасет: IMDb Top Rated Movies
Инструкция: Exploring IMDb Top 250 with Tableau
Попробуйте поэкспериментировать с данными IMDB и создать интерактивную панель с помощью Tableau.
Одно из преимуществ этого инструмента — возможность загрузить работу в Tableau Public и демонстрировать ее, просто отправив ссылку. Потенциальный работодатель сможет взаимодействовать с дэшбордом, что послужит дополнительной причиной, вызывающей интерес. Это еще на шаг приблизит вас к работе мечты.
Машинное обучение
Наконец, от соискателя требуется представить проекты по машинному обучению. Лучше всего использовать контролируемый и неконтролируемый тип взаимодействия.
Сентимент-анализ отзывов на еду с Amazon
Датасет: Amazon Fine Food Reviews Dataset
Инструкция: A beginner’s guide to sentiment analysis with Python
Язык: Python
Сентимент-анализ — важный элемент машинного обучения. Бизнес часто использует его, чтобы оценить общую реакцию потребителей на продукты.
Покупатели обычно обсуждают покупки в социальных сетях или специализированных форумах. Эти данные можно собрать и проанализировать, чтобы определить, как разные люди реагируют на разные маркетинговые стратегии. Это поможет изменить позиционирование или целевую аудиторию.
Сейчас практически каждый бизнес работает в социальных сетях, поэтому такой проект обязательно должен быть в портфолио начинающего дата-сайентиста.
Прогноз продолжительности жизни
Датасет: Life Expectancy Dataset
Инструкция: Life Expectancy Regression
Язык: Python
В этом проекте вам предстоит составить прогноз продолжительности жизни человека, исходя из таких переменных, как образование, смертность среди младенцев и взрослых, а также употребление алкоголя.
Важно, чтобы в портфолио были проекты из нескольких тематик, чтобы показать опыт в разнообразных направлениях.
Анализ статистики рака груди
Датасет: Breast Cancer Dataset
Инструкция: Cluster analysis of breast cancer dataset
Язык: Python
В этом проекте вам предстоит использовать алгоритм кластеризации k-средних, чтобы определить присутствие рака молочной железы по целевым атрибутам.
Кластеризация k-средних — это неконтролируемый тип взаимодействия. Важно иметь такие проекты в портфолио, потому что в основном вам предстоит работать с неразмеченными данными.
Даже большие наборы данных, собранные компаниями, как правило, не имеют разметки. Иногда дата-сайентисту предстоит самостоятельно размечать датасет, используя инструменты неконтролируемого обучения.
Портфолио должно включать проекты, которые демонстрируют весь спектр необходимых навыков — сбор данных, их анализ, визуализацию и машинное обучение. К счастью, в открытом доступе есть масса инструкций и обучающих материалов. От начинающего эксперта по данным требуется лишь любопытство и знание Python.
Фото на обложке: Unsplash
-
Партнёрский материал Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 16 июня 2026, 15:52
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Технологии Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 09 июня 2026, 12:14
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Технологии Уроки китайского единства 26 мая 2026, 13:27
-
Бизнес Музыкальный бизнес в России в 2026-м: как ИИ и новые законы меняют рынок 19 июня 2026, 18:30
-
IT Как провести A/B-тест без ложных результатов: правила настройки и частые ошибки 17 июня 2026, 18:50
-
Технологии Meta* выпустила первые умные очки в коллаборации с Кайли Дженнер: стоимость — от $299 24 июня 2026, 11:26
-
Технологии Пользователи сообщают о сбое в работе Twitch — при этом Роскомнадзор отрицает блокировку сервиса в России 23 июня 2026, 20:00
-
Технологии «Моторика» привлекла 1 млрд ₽ льготного финансирования — средства направят на развитие нейротехнологий 23 июня 2026, 16:40
-
Банки Срок действия льготной ставки по семейной ипотеке могут ограничить: кредит будут субсидировать только первые 15 лет 24 июня 2026, 12:00
-
Ритейл Самокат обновил главную страницу приложения — пользователям стало проще искать нужные товары 24 июня 2026, 07:00
-
Россия Госдума ввела ипотечные каникулы для семей с двумя детьми — заёмщики смогут приостановить выплаты на 18 месяцев 23 июня 2026, 19:47
-
На регате Digital Club встретятся представители бизнеса — среди них «Аэрофлот», ВТБ и Ozon Банк 22 июня 2026, 16:12
-
Искусственный интеллект VK, «Яндекс» и «Авито Реклама» выступят на конференции «AdIndex Сити»: главная тема — влияние ИИ 22 июня 2026, 14:49