«Только 3% данных правильно собираются и хранятся»: вот как работать с ними лучше
Научитесь аккумулировать данные в пять этапов
Сейчас на планете порядка 110 зеттабайт цифровых данных — а к 2025-му их объем превысит 180 зеттабайт. Для понимания, один зеттабайт — это 4K-видео длиной 63 млн лет. Однако в основном эти массивы бесполезны: только 3% данных правильно собираются и хранятся. Лишь эти идеальные данные можно впоследствии проанализировать — и, например, понять, как оптимизировать CJM или поменять интерфейс на сайте, чтобы увеличить продажи.
Вячеслав Жуков, Chief Data Officer в Aero, поделился инструкцией, как добиться высокого качества данных и анализировать их, чтобы не приносить бизнесу убытки.
Какие данные стоит собирать
В отношении данных работает принцип Парето, то есть 20% данных несут 80% пользы. Например, для eCommerce наиболее ценны записи о воронке продаж и customer journey map, демографический анализ покупателей плюс исторические данные о посещениях, просмотрах и покупках.
Особенно важны детали. Скажем, для анализа воронки продаж нужно, как минимум, понимать:
- сколько пользователей за какой период времени посещают витрину,
- переходят в каталог и карточки товаров,
- доходят до оплаты,
- сколько заказов оформляют, выкупают и возвращают.
Помимо сбора, важно объединить данные из разных баз, CRM и прочих корпоративных хранилищ.
Например, чтобы определить процент выкупа, карточку заказа в системах клиентского трекинга нужно связать с карточкой этого же заказа во внутренней системе учета.
Это не так просто — много нюансов связано с меняющимся статусом заказа, жизненным циклом товаров и прочим — зато в итоге бизнес получит максимально правдивые и полные данные для принятия стратегических решений в будущем.
Как аккумулировать данные правильно
Базовый алгоритм по работе с качеством данных состоит из пяти этапов:
- Первым делом нужно определить, кто в компании будет отвечать за работу с данными
Иногда эту роль отводят продуктовым менеджерам, аналитикам или вовсе отдают в отдел ИТ.
Хотя в идеале это должен быть отдельный сотрудник — data owner, владелец данных, или же data steward, распорядитель данных. Такой специалист достаточно глубоко понимает бизнес-цели, при этом обладает техническими компетенциями — и постоянно контролирует, насколько корректно собираются и хранятся данные, подстраивает эти процессы под текущие и новые задачи компании.
Читайте также: Кто такой дата-партнер и как им стать
- Собрать руководство по всему жизненному циклу данных
В каком формате собирать, какие метрики применять, где хранить, как часто перепроверять. Можно хранить петабайты данных, но без единого подхода они будут ненадежны или вовсе ошибочны.
Это похоже на кошелек с настоящими и поддельными купюрами — вроде деньги есть, но непонятно, чем можно расплатиться.
- Постоянно повышать качество базы данных
Очищать и структурировать, находить и заполнять пробелы, мапировать — связывать информацию из разных систем.
- Настроить систему алертинга
Если происходит какой-то сбой в сборе данных и им нельзя доверять, система должна автоматически оповестить аналитиков и тех, кто принимает бизнес-решения на основе этих данных.
- Регулярно измерять бизнес-эффект от работы с данными
То есть мониторить, как результаты соотносятся с целями и прогнозами.
На начальном этапе лучшая стратегия — сузить сбор данных до жизненно необходимого минимума и добиться их максимальной надежности. После можно увеличивать глубину сбора данных и оттачивать алгоритм проверки.
Читайте по теме: 10 вопросов, ответы на которые помогут встать на путь data-driven компании
Конечно, в сложных направлениях вроде отслеживания поведения миллионов посетителей интернет-магазина вряд ли получится прийти к стопроцентному качеству. Для таких данных будет достаточно обеспечить чистоту в 90-95% — и тогда бизнес может смело их использовать. В то время как сведения о продажах можно и нужно приводить к абсолютной точности.
Как оценить качество данных
Понять, насколько корректными получились записи, проще от обратного. К примеру, на данные нельзя опираться, если на сайте есть нерабочие страницы и кнопки.
Представьте: клиент пытается выбрать новый способ доставки, а он просто некликабельный. Бизнес видит в дашборде «0 пользователей выбрали новый способ доставки», решает, что этот вариант никому не нужен, и отключает функционал — хотя на деле он мог принести ощутимую прибыль.
Поэтому если замечаете, что данные дублируются, выпадают из медианной зоны или вовсе отсутствуют (хотя вы их собираете) — это верный признак, что они не подойдут для принятия бизнес-решений. И что нужно перепроверить алгоритм их сбора.
Читайте по теме: Как выстроить Data Science отдел в корпорации
Если же на первый взгляд информация выглядят естественно, примените к ней следующие метрики:
- Полнота
Действительно ли данные содержат ключевую для конкретного бизнес-процесса информацию? Так, если вы ритейлер и хотите понять, какие районы предпочитают ваши клиенты, без адресов не обойтись.
- Уникальность
Данные не могут повторяться. То есть при регистрации нового пользователя важно проверять, есть ли уже аккаунт с таким же адресом или телефоном. Как и убеждаться при добавлении в каталог нового товара, не занят ли артикул.
- Согласованность
Противоречить друг другу данные тоже не должны — ошибка наверняка кроется в способе их сбора. Можно свериться с другими инструментами — например, сервисом веб-аналитики сайта или 1С.
Читайте также: Все о профессии дата-сайентиста: от ключевых навыков до тонкостей трудоустройства
- Валидность
Данные должны быть достоверными. То есть дата рождения клиента не может быть «40.02.2030», а размер ноги — «-67».
- Актуальность
Если данные устарели или больше не используются, стоит перевести их в «холодное хранение» — минимизировать ресурсы на их содержание. Например, сжать файлы или перейти на более простое оборудование.
- Точность
Данные важно собирать однотипно, строго по регламенту, с учетом необходимого промежутка времени и других критериев. Иначе потом их будет сложно структурировать и анализировать — по крайней мере, автоматически.
- Систематичность
Бизнес должен аккумулировать информацию на протяжении всей своей жизни. Только собранные в базу данные имеют смысл — когда их можно сравнивать с прошлыми и прогнозируемыми показателями.
Читайте по теме: 6 шагов для бизнеса по выбору Customer Data Platform
Это основные метрики качества, но далеко не все.
Финансовые компании, например, дополнительно оценивают данные с точки зрения:
- их контролируемости (возможности оценить качество и происхождение),
- восстанавливаемости (возможности вернуть информацию после удаления или повреждения).
Измерить разницу между некачественными и качественными данными можно и в деньгах: в том же исследовании HBR говорится, что здесь применимо «правило десяти». Например, если есть идеальные данные для каждой из 100 задач, на выполнение уйдет $100. А если данные корректны только для половины из них, стоимость составит 50 х $1 + 50 х $10, то есть уже $550.
Неверные данные могут только замедлять процессы и привлекать новые ошибки, только уже более глобальные. Поэтому мой совет: инветсировать в точные, полные и актуальные данные.
Главное не гнаться за количеством без качества — иначе решения на основе такой датабазы станут для бизнеса «русской рулеткой».
Фото на обложке: Unsplash
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Искусственный интеллект Нам не нужен свой OpenAI: где России искать эффект от ИИ и что для этого делать 19 мая 2026, 11:00
-
Бизнес «Команде не вырасти выше лидера»: как изменить неписаные правила взаимодействия в группе 19 мая 2026, 10:00
-
Ритейл Когда ручная отчётность мешает компании расти: как ускорить аналитику в фешен-ретейле 16 апреля 2026, 18:29
-
Деньги Персональные данные и цифровой след: кто и как на них зарабатывает 27 марта 2026, 10:11
-
Технологии Подключённые автомобили: как интернет меняет автопром 25 марта 2026, 13:17
-
Бизнес «Малый бизнес драйвит всё»: как компании из Архангельска растут на терпении, связях и самоиронии 25 мая 2026, 18:03
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Бизнес Whoosh появился в приложении «Метро Москвы» — в транспортном сервисе теперь можно найти парковки для кикшеринга 03 июня 2026, 15:38
-
Деньги Создание сети 5G обойдётся российским операторам в 335 млрд ₽ — первые сети должны заработать в 2027 году 03 июня 2026, 14:30
-
Тренды Каждый десятый удалёнщик переехал в загородный дом — дачи перестают быть местом только для отдыха 03 июня 2026, 13:07
-
Искусственный интеллект В Санкт-Петербурге стартовал ПМЭФ–2026: форум посетят представители более 130 стран, в программе — более 150 сессий 03 июня 2026, 11:21
-
Россия Российские автопроизводители показали на ПМЭФ–2026 новые модели авто: среди них — флагманский кроссовер Volga K50 03 июня 2026, 14:00
-
Россия В России утвердили новые правила подсчёта просмотров в онлайн-кинотеатрах: статистику привяжут к номеру телефона 02 июня 2026, 20:00
-
Бизнес МТС впервые с 2009 года привлекла кредит от российских банков — сумма займа может достичь 70 млрд ₽ 02 июня 2026, 15:40
-
Технологии 84% российских приложений содержат критические уязвимости — проблемы всё чаще возникают из-за некорректного ИИ-кода 02 июня 2026, 17:10