Сейчас на планете порядка 110 зеттабайт цифровых данных — а к 2025-му их объем превысит 180 зеттабайт. Для понимания, один зеттабайт — это 4K-видео длиной 63 млн лет. Однако в основном эти массивы бесполезны: только 3% данных правильно собираются и хранятся. Лишь эти идеальные данные можно впоследствии проанализировать — и, например, понять, как оптимизировать CJM или поменять интерфейс на сайте, чтобы увеличить продажи.
Вячеслав Жуков, Chief Data Officer в Aero, поделился инструкцией, как добиться высокого качества данных и анализировать их, чтобы не приносить бизнесу убытки.
Какие данные стоит собирать
В отношении данных работает принцип Парето, то есть 20% данных несут 80% пользы. Например, для eCommerce наиболее ценны записи о воронке продаж и customer journey map, демографический анализ покупателей плюс исторические данные о посещениях, просмотрах и покупках.
Особенно важны детали. Скажем, для анализа воронки продаж нужно, как минимум, понимать:
- сколько пользователей за какой период времени посещают витрину,
- переходят в каталог и карточки товаров,
- доходят до оплаты,
- сколько заказов оформляют, выкупают и возвращают.
Помимо сбора, важно объединить данные из разных баз, CRM и прочих корпоративных хранилищ.
Например, чтобы определить процент выкупа, карточку заказа в системах клиентского трекинга нужно связать с карточкой этого же заказа во внутренней системе учета.
Это не так просто — много нюансов связано с меняющимся статусом заказа, жизненным циклом товаров и прочим — зато в итоге бизнес получит максимально правдивые и полные данные для принятия стратегических решений в будущем.
Как аккумулировать данные правильно
Базовый алгоритм по работе с качеством данных состоит из пяти этапов:
- Первым делом нужно определить, кто в компании будет отвечать за работу с данными
Иногда эту роль отводят продуктовым менеджерам, аналитикам или вовсе отдают в отдел ИТ.
Хотя в идеале это должен быть отдельный сотрудник — data owner, владелец данных, или же data steward, распорядитель данных. Такой специалист достаточно глубоко понимает бизнес-цели, при этом обладает техническими компетенциями — и постоянно контролирует, насколько корректно собираются и хранятся данные, подстраивает эти процессы под текущие и новые задачи компании.
Читайте также: Кто такой дата-партнер и как им стать
- Собрать руководство по всему жизненному циклу данных
В каком формате собирать, какие метрики применять, где хранить, как часто перепроверять. Можно хранить петабайты данных, но без единого подхода они будут ненадежны или вовсе ошибочны.
Это похоже на кошелек с настоящими и поддельными купюрами — вроде деньги есть, но непонятно, чем можно расплатиться.
- Постоянно повышать качество базы данных
Очищать и структурировать, находить и заполнять пробелы, мапировать — связывать информацию из разных систем.
- Настроить систему алертинга
Если происходит какой-то сбой в сборе данных и им нельзя доверять, система должна автоматически оповестить аналитиков и тех, кто принимает бизнес-решения на основе этих данных.
- Регулярно измерять бизнес-эффект от работы с данными
То есть мониторить, как результаты соотносятся с целями и прогнозами.
На начальном этапе лучшая стратегия — сузить сбор данных до жизненно необходимого минимума и добиться их максимальной надежности. После можно увеличивать глубину сбора данных и оттачивать алгоритм проверки.
Читайте по теме: 10 вопросов, ответы на которые помогут встать на путь data-driven компании
Конечно, в сложных направлениях вроде отслеживания поведения миллионов посетителей интернет-магазина вряд ли получится прийти к стопроцентному качеству. Для таких данных будет достаточно обеспечить чистоту в 90-95% — и тогда бизнес может смело их использовать. В то время как сведения о продажах можно и нужно приводить к абсолютной точности.
Как оценить качество данных
Понять, насколько корректными получились записи, проще от обратного. К примеру, на данные нельзя опираться, если на сайте есть нерабочие страницы и кнопки.
Представьте: клиент пытается выбрать новый способ доставки, а он просто некликабельный. Бизнес видит в дашборде «0 пользователей выбрали новый способ доставки», решает, что этот вариант никому не нужен, и отключает функционал — хотя на деле он мог принести ощутимую прибыль.
Поэтому если замечаете, что данные дублируются, выпадают из медианной зоны или вовсе отсутствуют (хотя вы их собираете) — это верный признак, что они не подойдут для принятия бизнес-решений. И что нужно перепроверить алгоритм их сбора.
Читайте по теме: Как выстроить Data Science отдел в корпорации
Если же на первый взгляд информация выглядят естественно, примените к ней следующие метрики:
- Полнота
Действительно ли данные содержат ключевую для конкретного бизнес-процесса информацию? Так, если вы ритейлер и хотите понять, какие районы предпочитают ваши клиенты, без адресов не обойтись.
- Уникальность
Данные не могут повторяться. То есть при регистрации нового пользователя важно проверять, есть ли уже аккаунт с таким же адресом или телефоном. Как и убеждаться при добавлении в каталог нового товара, не занят ли артикул.
- Согласованность
Противоречить друг другу данные тоже не должны — ошибка наверняка кроется в способе их сбора. Можно свериться с другими инструментами — например, сервисом веб-аналитики сайта или 1С.
Читайте также: Все о профессии дата-сайентиста: от ключевых навыков до тонкостей трудоустройства
- Валидность
Данные должны быть достоверными. То есть дата рождения клиента не может быть «40.02.2030», а размер ноги — «-67».
- Актуальность
Если данные устарели или больше не используются, стоит перевести их в «холодное хранение» — минимизировать ресурсы на их содержание. Например, сжать файлы или перейти на более простое оборудование.
- Точность
Данные важно собирать однотипно, строго по регламенту, с учетом необходимого промежутка времени и других критериев. Иначе потом их будет сложно структурировать и анализировать — по крайней мере, автоматически.
- Систематичность
Бизнес должен аккумулировать информацию на протяжении всей своей жизни. Только собранные в базу данные имеют смысл — когда их можно сравнивать с прошлыми и прогнозируемыми показателями.
Читайте по теме: 6 шагов для бизнеса по выбору Customer Data Platform
Это основные метрики качества, но далеко не все.
Финансовые компании, например, дополнительно оценивают данные с точки зрения:
- их контролируемости (возможности оценить качество и происхождение),
- восстанавливаемости (возможности вернуть информацию после удаления или повреждения).
Измерить разницу между некачественными и качественными данными можно и в деньгах: в том же исследовании HBR говорится, что здесь применимо «правило десяти». Например, если есть идеальные данные для каждой из 100 задач, на выполнение уйдет $100. А если данные корректны только для половины из них, стоимость составит 50 х $1 + 50 х $10, то есть уже $550.
Неверные данные могут только замедлять процессы и привлекать новые ошибки, только уже более глобальные. Поэтому мой совет: инветсировать в точные, полные и актуальные данные.
Главное не гнаться за количеством без качества — иначе решения на основе такой датабазы станут для бизнеса «русской рулеткой».
Фото на обложке: Unsplash
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Интернет-маркетинг для малого бизнеса»
- 1 Логирование: понятие, механизмы и уровни
- 2 Понимание CAP-теоремы: согласованность, доступность, устойчивость данных
- 3 Как работает веб-скрейпинг и зачем он нужен
- 4 Real-Time Аналитика — что это такое, преимущества анализа данных в реальном времени
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025