9 ошибок в работе с большими данными, которые делают руководители компаний

Анна Самойдюк
Расскажите друзьям
Анна Самойдюк

Даже с одним и тем же набором данных два человека могут сделать совершенно разные выводы. Это потому, что сами по себе данные не являются «эталонными». Исследователи могут выводить данные из неправильной информации, полагаться на субъективное суждение или использовать источники сомнительного происхождения. И если эталонные данные окажутся неправильными, то результаты будут неправильными и потенциально опасными для вашего бизнеса. 

Вот 9 распространенных ошибок, которые совершают руководители компаний, когда работают с данными.

1. Отсутствие четкой цели

Если вы четко не установите цель, вы не будете знать, что нужно собирать. Вероятнее всего, вы соберете неверные или неполные данные. В больших данных наблюдается распространенная тенденция, когда компании собирают тонны информации, не понимая, зачем она им нужна и как ее использовать. Сбор огромного количества данных только помешает проводить анализ в будущем, потому что среди кучи мусора вам придется искать то, что на самом деле нужно.

2. Ошибка определения

Давайте представим, что вы хотите узнать, сколько клиенты потратили на ваши услуги за прошедший квартал. Казалось бы, простая задача, правда? К сожалению, даже такие простые цели требуют точного определения понятий.

Во-первых, как вы определяете «клиента»? Вы же не захотите стричь всех под одну гребенку. Вы, скорее всего, планируете сегментировать клиентов по их покупательскому поведению, чтобы соответствующим образом строить маркетинговую модель. В таком случае вам необходимо будет удостовериться, что вы учитываете важную информацию о клиенте, например, историю его расходов или демографическую информацию.

А как вы определяете «квартал»? Вы имеете в виду финансовый квартал или календарный? Финансовые годы у многих компаний не совпадают с календарными. Они также отличаются в зависимости от страны: например, в Австралии финансовый год начинается первого июля, а в Индии – первого апреля.

13 сентября в Москве состоится конференция по большим данным Big Data Conference. В этом году мы включили в программу не только лучшие кейсы от компаний, но и Big Data Hackathon для специалистов по анализу данных. Не пропустите!

Фото: Harvard Extension School

Вам также нужно будет разработать стратегию учета возвратов и обменов. Что, если клиент купил ваш продукт в одном квартале, но вернул его в другом? Что, если он подал жалобу и получил возмещение? Вы будете относить это к предыдущему кварталу или к этому?

Как вы видите, выбрать правильное – не очень простая задача. Вам нужно будет понять, чего вы ожидаете, и установить соответствующие параметры, чтобы собирать информацию, которая вам действительно нужна.

3. Ошибка захвата данных

Как только вы определили тип данных, которые хотели бы собирать, вам необходимо разработать механизм для их захвата. В случае ошибки вы можете собрать неправильные данные. Например, если вы хотите проверить, является ли продукт A более привлекательным, чем продукт B, но на сайте продукт A находится на первой странице, а продукт B – на второй, есть вероятность, что пользователи просто не увидят продукт B, и это приведет вас к неправильным выводам.

4. Ошибка измерения

Эти ошибки возникают тогда, когда что-то идет не так в программном обеспечении или аппаратуре, которые вы используете для захвата данных.

Например, вы можете потерять информацию о поведении пользователя в вашем мобильном приложении, если у пользователя проблемы с подключением, и его логи не синхронизируются с вашими серверами. Если вы используете аппаратные датчики, такие как микрофон, вам могут помешать фоновые шумы или другие электрические сигналы.

5. Ошибка обработки

Как вы уже поняли, многие ошибки возникают еще до того, как вы взглянете на данные. Большинство предприятий, которым принадлежат данные, уже давно устарели, а первоначальная команда, которая могла бы объяснить свои решения, распалась. Многие их предположения чаще всего не задокументированы. Получается, вы должны сами делать выводы, а это непростая задача.

Фото: Unsplash

Вместе с командой вы можете сделать предположения, которые будут отличаться от первоначальных. Таким образом вы достигните совершенно других результатов. Очень часто компании не используют определенный фильтр, который использовали исследователи, или просто совершают методологические ошибки.

6. Ошибка покрытия

Когда компании проводят опросы, они часто упускают тот факт, что не у всех целевых респондентов есть возможность принять в нем участие. Например, если вы собираете данные о пожилом населении на сайте, вы наверняка упустите большое количество респондентов.

В случае с цифровыми продуктами ваша команда маркетологов должна проанализировать поведение всех пользователей смартфонов. Однако если вы разработаете приложение только для iOS, вы не сможете понять, как себя будут вести в приложении пользователи Android.

7. Ошибка сбора

Эта ошибка возникает тогда, когда вы анализируете данные лишь небольшой группы людей, а этого недостаточно для составления четкой картины. Выводы, которые вы сделаете, скорее всего, окажутся неправильными – они не будут относиться ко всей целевой аудитории.

Классический пример ошибки сбора: вы спрашиваете мнение только своих друзей и знакомых, а затем приходите к выводу, что вся ваша целевая аудитория думает так же.

8. Ошибка выводов

Модели статистического или машинного обучения совершают ошибки выводов, когда делают неверные прогнозы, основываясь на исходном наборе данных. Существует два типа ошибок выводов:

  1. вы неправильно прогнозируете, что предмет относится к определенной категории, когда на самом деле это не так;
  2. предмет уже находится в определенной категории, а вы прогнозируете, что это не так.

Вычисление таких ошибок поможет оценить эффективность ваших моделей машинного обучения. Однако на самом деле многие наборы данных могут быть неправильно маркированы, поэтому вам будет сложно точно определить ошибки выводов, которые допускает ваша система искусственного интеллекта.

Фото: AgentMail

9. Неизвестная ошибка

Реальность неуловима, и вам не всегда будет легко устанавливать эталонные данные. Очень часто (особенно если речь идет о цифровых продуктах) вы можете захватить тонны информации о том, что пользователь делал на вашей платформе, но не будете понимать его мотивацию. Вы будете знать, что пользователь нажал на рекламу, но не будете знать, разозлила она его или нет.

Наряду с точными ошибками существуют и те, которые мы не можем объяснить.

Об этих девяти ошибках должен знать каждый руководитель, но следует помнить, что помимо них существует огромное множество проблем, которые могут помешать эффективности технологий ИИ.  

Источник.


Материалы по теме:

Что нужно знать начинающему дата-сайентисту

Три правила грамотного использования Big data в практике маркетолога (и успешные кейсы)

Где будут обсуждать большие данные и AI в 2018 году?

Большие данные в ритейле: что они дают и как с ними работать


Актуальные материалы — в Telegram-канале @Rusbase

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter


Комментарии

Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
Russian Internet Week – RIW 2018
21 ноября 2018
Ещё события


Telegram канал @rusbase