«Только 3% данных правильно собираются и хранятся»: вот как работать с ними лучше
Научитесь аккумулировать данные в пять этапов
Сейчас на планете порядка 110 зеттабайт цифровых данных — а к 2025-му их объем превысит 180 зеттабайт. Для понимания, один зеттабайт — это 4K-видео длиной 63 млн лет. Однако в основном эти массивы бесполезны: только 3% данных правильно собираются и хранятся. Лишь эти идеальные данные можно впоследствии проанализировать — и, например, понять, как оптимизировать CJM или поменять интерфейс на сайте, чтобы увеличить продажи.
Вячеслав Жуков, Chief Data Officer в Aero, поделился инструкцией, как добиться высокого качества данных и анализировать их, чтобы не приносить бизнесу убытки.
Какие данные стоит собирать
В отношении данных работает принцип Парето, то есть 20% данных несут 80% пользы. Например, для eCommerce наиболее ценны записи о воронке продаж и customer journey map, демографический анализ покупателей плюс исторические данные о посещениях, просмотрах и покупках.
Особенно важны детали. Скажем, для анализа воронки продаж нужно, как минимум, понимать:
- сколько пользователей за какой период времени посещают витрину,
- переходят в каталог и карточки товаров,
- доходят до оплаты,
- сколько заказов оформляют, выкупают и возвращают.
Помимо сбора, важно объединить данные из разных баз, CRM и прочих корпоративных хранилищ.
Например, чтобы определить процент выкупа, карточку заказа в системах клиентского трекинга нужно связать с карточкой этого же заказа во внутренней системе учета.
Это не так просто — много нюансов связано с меняющимся статусом заказа, жизненным циклом товаров и прочим — зато в итоге бизнес получит максимально правдивые и полные данные для принятия стратегических решений в будущем.
Как аккумулировать данные правильно
Базовый алгоритм по работе с качеством данных состоит из пяти этапов:
- Первым делом нужно определить, кто в компании будет отвечать за работу с данными
Иногда эту роль отводят продуктовым менеджерам, аналитикам или вовсе отдают в отдел ИТ.
Хотя в идеале это должен быть отдельный сотрудник — data owner, владелец данных, или же data steward, распорядитель данных. Такой специалист достаточно глубоко понимает бизнес-цели, при этом обладает техническими компетенциями — и постоянно контролирует, насколько корректно собираются и хранятся данные, подстраивает эти процессы под текущие и новые задачи компании.
Читайте также: Кто такой дата-партнер и как им стать
- Собрать руководство по всему жизненному циклу данных
В каком формате собирать, какие метрики применять, где хранить, как часто перепроверять. Можно хранить петабайты данных, но без единого подхода они будут ненадежны или вовсе ошибочны.
Это похоже на кошелек с настоящими и поддельными купюрами — вроде деньги есть, но непонятно, чем можно расплатиться.
- Постоянно повышать качество базы данных
Очищать и структурировать, находить и заполнять пробелы, мапировать — связывать информацию из разных систем.
- Настроить систему алертинга
Если происходит какой-то сбой в сборе данных и им нельзя доверять, система должна автоматически оповестить аналитиков и тех, кто принимает бизнес-решения на основе этих данных.
- Регулярно измерять бизнес-эффект от работы с данными
То есть мониторить, как результаты соотносятся с целями и прогнозами.
На начальном этапе лучшая стратегия — сузить сбор данных до жизненно необходимого минимума и добиться их максимальной надежности. После можно увеличивать глубину сбора данных и оттачивать алгоритм проверки.
Читайте по теме: 10 вопросов, ответы на которые помогут встать на путь data-driven компании
Конечно, в сложных направлениях вроде отслеживания поведения миллионов посетителей интернет-магазина вряд ли получится прийти к стопроцентному качеству. Для таких данных будет достаточно обеспечить чистоту в 90-95% — и тогда бизнес может смело их использовать. В то время как сведения о продажах можно и нужно приводить к абсолютной точности.
Как оценить качество данных
Понять, насколько корректными получились записи, проще от обратного. К примеру, на данные нельзя опираться, если на сайте есть нерабочие страницы и кнопки.
Представьте: клиент пытается выбрать новый способ доставки, а он просто некликабельный. Бизнес видит в дашборде «0 пользователей выбрали новый способ доставки», решает, что этот вариант никому не нужен, и отключает функционал — хотя на деле он мог принести ощутимую прибыль.
Поэтому если замечаете, что данные дублируются, выпадают из медианной зоны или вовсе отсутствуют (хотя вы их собираете) — это верный признак, что они не подойдут для принятия бизнес-решений. И что нужно перепроверить алгоритм их сбора.
Читайте по теме: Как выстроить Data Science отдел в корпорации
Если же на первый взгляд информация выглядят естественно, примените к ней следующие метрики:
- Полнота
Действительно ли данные содержат ключевую для конкретного бизнес-процесса информацию? Так, если вы ритейлер и хотите понять, какие районы предпочитают ваши клиенты, без адресов не обойтись.
- Уникальность
Данные не могут повторяться. То есть при регистрации нового пользователя важно проверять, есть ли уже аккаунт с таким же адресом или телефоном. Как и убеждаться при добавлении в каталог нового товара, не занят ли артикул.
- Согласованность
Противоречить друг другу данные тоже не должны — ошибка наверняка кроется в способе их сбора. Можно свериться с другими инструментами — например, сервисом веб-аналитики сайта или 1С.
Читайте также: Все о профессии дата-сайентиста: от ключевых навыков до тонкостей трудоустройства
- Валидность
Данные должны быть достоверными. То есть дата рождения клиента не может быть «40.02.2030», а размер ноги — «-67».
- Актуальность
Если данные устарели или больше не используются, стоит перевести их в «холодное хранение» — минимизировать ресурсы на их содержание. Например, сжать файлы или перейти на более простое оборудование.
- Точность
Данные важно собирать однотипно, строго по регламенту, с учетом необходимого промежутка времени и других критериев. Иначе потом их будет сложно структурировать и анализировать — по крайней мере, автоматически.
- Систематичность
Бизнес должен аккумулировать информацию на протяжении всей своей жизни. Только собранные в базу данные имеют смысл — когда их можно сравнивать с прошлыми и прогнозируемыми показателями.
Читайте по теме: 6 шагов для бизнеса по выбору Customer Data Platform
Это основные метрики качества, но далеко не все.
Финансовые компании, например, дополнительно оценивают данные с точки зрения:
- их контролируемости (возможности оценить качество и происхождение),
- восстанавливаемости (возможности вернуть информацию после удаления или повреждения).
Измерить разницу между некачественными и качественными данными можно и в деньгах: в том же исследовании HBR говорится, что здесь применимо «правило десяти». Например, если есть идеальные данные для каждой из 100 задач, на выполнение уйдет $100. А если данные корректны только для половины из них, стоимость составит 50 х $1 + 50 х $10, то есть уже $550.
Неверные данные могут только замедлять процессы и привлекать новые ошибки, только уже более глобальные. Поэтому мой совет: инветсировать в точные, полные и актуальные данные.
Главное не гнаться за количеством без качества — иначе решения на основе такой датабазы станут для бизнеса «русской рулеткой».
Фото на обложке: Unsplash
-
Партнёрский материал Экс-директор Xiaomi о том, как делать сильные продукты и внедрять ИИ без иллюзий 06 апреля 2026, 16:14
-
Деньги Персональные данные и цифровой след: кто и как на них зарабатывает 27 марта 2026, 10:11
-
Технологии Подключённые автомобили: как интернет меняет автопром 25 марта 2026, 13:17
-
Россия Минус 50 — не приговор: как в Якутске строят устойчивый бизнес 06 апреля 2026, 15:39
-
Карьера Зумеры в управлении — не мода, а необходимость 28 февраля 2026, 01:00
-
Тренды Будущее под камерами: шесть сценариев, как видеонаблюдение перепишет реальность к 2036 году 19 января 2026, 10:57
-
Ритейл Почему интернет-магазины перестают строить доставку сами 27 марта 2026, 12:14
-
Бизнес 40% — локальные, 60% — зарубежные: как Lamoda растит бренды и почему не превращается в «русский Amazon» 19 декабря 2025, 16:19
-
Искусственный интеллект Nebius Аркадия Воложа ведёт переговоры о покупке ИИ-стартапа AI21 Labs — ранее проект оценили в $1,4 млрд 09 апреля 2026, 20:35
-
Бизнес Светофор теряет доход из-за проверок Роспотребнадзора — в Москве чистая прибыль точек сократилась на 77% 09 апреля 2026, 19:30
-
Бизнес Мосбиржа начала маркировать акции компаний, не раскрывающих данные о себе: отметку получили «Мосэнерго» и «Роснано» 09 апреля 2026, 17:29
-
Банки Ценообразование на маркетплейсах хотят закрепить в меморандуме: способ оплаты не будет влиять на стоимость товара 09 апреля 2026, 15:25
-
Россия В работе «Ростелекома» произошёл масштабный сбой из-за DDoS-атаки — пользователи жалуются на проблемы с интернетом 06 апреля 2026, 23:59
-
Бизнес В Москве проходит форум о целевых капиталах: бизнес обсуждает финансовую устойчивость НКО и их будущее 03 апреля 2026, 14:17
-
Ритейл «Купер» запустил программу лояльности: малый и средний бизнес сможет вернуть 1,5% с закупок 31 марта 2026, 11:35
-
Россия В России средний чек на туры вырос с 60 тыс. до 93 тыс. рублей, а ОАЭ не теряют популярности у российских туристов 30 марта 2026, 20:14