Колонки

«Только 3% данных правильно собираются и хранятся»: вот как работать с ними лучше

Колонки
Вячеслав Жуков
Вячеслав Жуков

Chief Data Officer в eCommerce-агентстве Aero

Анастасия Удальцова

Сейчас на планете порядка 110 зеттабайт цифровых данных — а к 2025-му их объем превысит 180 зеттабайт. Для понимания, один зеттабайт — это 4K-видео длиной 63 млн лет. Однако в основном эти массивы бесполезны: только 3% данных правильно собираются и хранятся. Лишь эти идеальные данные можно впоследствии проанализировать — и, например, понять, как оптимизировать CJM или поменять интерфейс на сайте, чтобы увеличить продажи.

Вячеслав Жуков, Chief Data Officer в Aero, поделился инструкцией, как добиться высокого качества данных и анализировать их, чтобы не приносить бизнесу убытки.

«Только 3% данных правильно собираются и хранятся»: вот как работать с ними лучше

Какие данные стоит собирать 

В отношении данных работает принцип Парето, то есть 20% данных несут 80% пользы. Например, для eCommerce наиболее ценны записи о воронке продаж и customer journey map, демографический анализ покупателей плюс исторические данные о посещениях, просмотрах и покупках.

Особенно важны детали. Скажем, для анализа воронки продаж нужно, как минимум, понимать: 

  • сколько пользователей за какой период времени посещают витрину, 
  • переходят в каталог и карточки товаров, 
  • доходят до оплаты,
  • сколько заказов оформляют, выкупают и возвращают.

Помимо сбора, важно объединить данные из разных баз, CRM и прочих корпоративных хранилищ. 

Например, чтобы определить процент выкупа, карточку заказа в системах клиентского трекинга нужно связать с карточкой этого же заказа во внутренней системе учета.

Все сервисы и компании, связанные с релокацией, на одной карте

Это не так просто — много нюансов связано с меняющимся статусом заказа, жизненным циклом товаров и прочим — зато в итоге бизнес получит максимально правдивые и полные данные для принятия стратегических решений в будущем. 

 

Как аккумулировать данные правильно

Базовый алгоритм по работе с качеством данных состоит из пяти этапов:

  • Первым делом нужно определить, кто в компании будет отвечать за работу с данными

Иногда эту роль отводят продуктовым менеджерам, аналитикам или вовсе отдают в отдел ИТ. 

Хотя в идеале это должен быть отдельный сотрудник — data owner, владелец данных, или же data steward, распорядитель данных. Такой специалист достаточно глубоко понимает бизнес-цели, при этом обладает техническими компетенциями — и постоянно контролирует, насколько корректно собираются и хранятся данные, подстраивает эти процессы под текущие и новые задачи компании.


Читайте также: Кто такой дата-партнер и как им стать


  • Собрать руководство по всему жизненному циклу данных

В каком формате собирать, какие метрики применять, где хранить, как часто перепроверять. Можно хранить петабайты данных, но без единого подхода они будут ненадежны или вовсе ошибочны. 

Это похоже на кошелек с настоящими и поддельными купюрами — вроде деньги есть, но непонятно, чем можно расплатиться.

  • Постоянно повышать качество базы данных

Очищать и структурировать, находить и заполнять пробелы, мапировать — связывать информацию из разных систем. 

  • Настроить систему алертинга

Если происходит какой-то сбой в сборе данных и им нельзя доверять, система должна автоматически оповестить аналитиков и тех, кто принимает бизнес-решения на основе этих данных.

  • Регулярно измерять бизнес-эффект от работы с данными

То есть мониторить, как результаты соотносятся с целями и прогнозами. 

На начальном этапе лучшая стратегия — сузить сбор данных до жизненно необходимого минимума и добиться их максимальной надежности. После можно увеличивать глубину сбора данных и оттачивать алгоритм проверки.


Читайте по теме: 10 вопросов, ответы на которые помогут встать на путь data-driven компании


Конечно, в сложных направлениях вроде отслеживания поведения миллионов посетителей интернет-магазина вряд ли получится прийти к стопроцентному качеству. Для таких данных будет достаточно обеспечить чистоту в 90-95% — и тогда бизнес может смело их использовать. В то время как сведения о продажах можно и нужно приводить к абсолютной точности.

 

Как оценить качество данных 

Понять, насколько корректными получились записи, проще от обратного. К примеру, на данные нельзя опираться, если на сайте есть нерабочие страницы и кнопки. 

Представьте: клиент пытается выбрать новый способ доставки, а он просто некликабельный. Бизнес видит в дашборде «0 пользователей выбрали новый способ доставки», решает, что этот вариант никому не нужен, и отключает функционал — хотя на деле он мог принести ощутимую прибыль. 

Поэтому если замечаете, что данные дублируются, выпадают из медианной зоны или вовсе отсутствуют (хотя вы их собираете) — это верный признак, что они не подойдут для принятия бизнес-решений. И что нужно перепроверить алгоритм их сбора. 


Читайте по теме: Как выстроить Data Science отдел в корпорации


Если же на первый взгляд информация выглядят естественно, примените к ней следующие метрики: 

  • Полнота

Действительно ли данные содержат ключевую для конкретного бизнес-процесса информацию? Так, если вы ритейлер и хотите понять, какие районы предпочитают ваши клиенты, без адресов не обойтись. 

  • Уникальность

Данные не могут повторяться. То есть при регистрации нового пользователя важно проверять, есть ли уже аккаунт с таким же адресом или телефоном. Как и убеждаться при добавлении в каталог нового товара, не занят ли артикул.

  • Согласованность

Противоречить друг другу данные тоже не должны — ошибка наверняка кроется в способе их сбора. Можно свериться с другими инструментами — например, сервисом веб-аналитики сайта или 1С.


Читайте также: Все о профессии дата-сайентиста: от ключевых навыков до тонкостей трудоустройства


  • Валидность

Данные должны быть достоверными. То есть дата рождения клиента не может быть «40.02.2030», а размер ноги — «-67».

  • Актуальность

Если данные устарели или больше не используются, стоит перевести их в «холодное хранение» — минимизировать ресурсы на их содержание. Например, сжать файлы или перейти на более простое оборудование.

  • Точность

Данные важно собирать однотипно, строго по регламенту, с учетом необходимого промежутка времени и других критериев. Иначе потом их будет сложно структурировать и анализировать — по крайней мере, автоматически.

  • Систематичность

Бизнес должен аккумулировать информацию на протяжении всей своей жизни. Только собранные в базу данные имеют смысл — когда их можно сравнивать с прошлыми и прогнозируемыми показателями. 


Читайте по теме: 6 шагов для бизнеса по выбору Customer Data Platform


Это основные метрики качества, но далеко не все. 

Финансовые компании, например, дополнительно оценивают данные с точки зрения:

  • их контролируемости (возможности оценить качество и происхождение),
  • восстанавливаемости (возможности вернуть информацию после удаления или повреждения).

Измерить разницу между некачественными и качественными данными можно и в деньгах: в том же исследовании HBR говорится, что здесь применимо «правило десяти». Например, если есть идеальные данные для каждой из 100 задач, на выполнение уйдет $100. А если данные корректны только для половины из них, стоимость составит 50 х $1 + 50 х $10, то есть уже $550. 

 

Неверные данные могут только замедлять процессы и привлекать новые ошибки, только уже более глобальные. Поэтому мой совет: инветсировать в точные, полные и актуальные данные. 

Главное не гнаться за количеством без качества — иначе решения на основе такой датабазы станут для бизнеса «русской рулеткой». 

 

Фото на обложке: Unsplash

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
  2. 2 Цифровые двойники: как работают, зачем нужны и как смоделировать своего
  3. 3 С какими сложностями может столкнуться компания при внесении данных в IT-системы и как упростить этот процесс
  4. 4 Помощь агробизнесу. Как Big data улучшает работу сельхозпредприятий
  5. 5 Как использовать Big Data & AI для увеличения потока клиентов: кейс с крупным банком
ArtTech — карта разработчиков арт-технологий
Все игроки российского рынка технологий для искусства
Перейти