Данные — двигатель прогресса и источник конкурентных преимуществ. С ростом их объема и усложнением информационных потоков централизованные хранилища данных превращаются в черный «ящик». В нем трудно отследить происхождение информации, определить ответственных за ее качество и обеспечить эффективное масштабирование.
В ответ на это возник подход Data Mesh, предлагающий децентрализованную модель управления данными, основанную на концепции доменного владения данными (data-продуктами). Вадим Горожанкин, старший системный аналитик компании IT_One, рассказал, чем неудобны старые принципы работы с данными и что приходит им на замену.
Почему традиционный подход к работе с данными перестает работать
Традиционная модель управления данными предполагает наличие централизованного подразделения, ответственного за сбор, хранение, обработку и анализ данных. Такой департамент получает запросы от различных бизнес-подразделений, выполняет их и занимается аналитическими отчетами, ML-моделями и другими data-продуктами.
Традиционная модель приводит к проблемам, препятствующим эффективной работе с данными. Централизованное хранилище данных с течением времени превращается в сложную структуру, теряющую прозрачность и эффективность отслеживания происхождения данных. Непросто понять, через какие преобразования прошли данные и как эти данные связаны между собой.
Из-за роста объемов данных и появления новых источников информации централизованная модель становится громоздкой и неэффективной. Добавление новых данных и их адаптация к потребностям бизнеса превращаются в сложные задачи.
Разрыв, который увеличивается между операционными (те что генерируются системой) и аналитическими данными (те что появляются в результате анализа операционных данных) приводит к созданию информационных «бункеров», где знания и информация изолированы в разных департаментах. Это затрудняет обмен информацией, анализ данных и принятие эффективных решений на основе полной картины.
Еще один недостаток централизованной модели — при ее использовании сложно определить, кто конкретно отвечает за качество и актуальность данных. Это вызывает проблемы с доверием к данным и затрудняет принятие решений на их основе. В результате централизованное управление данными становится bottleneck или «бутылочным горлышком» — ограничением системы, которое задерживает обработку запросов и реагирование на новые потребности бизнеса.
По теме. Неструктурированные данные: как контролировать, зачем управлять и как избежать утечек
Четыре принципа децентрализованной революции
Data Mesh предлагает альтернативный подход в работе с данными, основанный на четырех принципах. Они меняют способ организации и управления данными, что помогает повысить эффективность работы компании.
- В концепте Data Mesh данные принадлежат не централизованному подразделению, а конкретным доменным командам, которые лучше всего понимают контекст и особенности данных. Домены несут ответственность за качество, актуальность и доступность данных для других доменов и бизнес-подразделений.
- Домены создают и предоставляют data-продукты — наборы данных, витрины, ML-модели, отчеты, которые являются ценными источниками информации для остальных департаментов. Data-продукты имеют четкое определение, документацию и интерфейсы для доступа и использования.
- Data Mesh предполагает наличие единой платформы, где домены публикуют свои data-продукты, предоставляя другим участникам возможность самостоятельно находить, изучать и использовать нужные данные. Платформа обеспечивает единый интерфейс для доступа к данным, инструменты для их анализа и интеграции, а также документацию и метаданные.
- Определяется группа экспертов, которая устанавливает единые правила и стандарты управления данными, среди которых безопасность, конфиденциальность, соответствие законодательству, а также принципы разработки и предоставления data-продуктов. В дальнейшем этим стандартам должны соответствовать разрабатываемые data-продукты. Домены несут ответственность за соблюдение принятых стандартов.
Преимущества нового подхода
- Прежде всего, децентрализованный подход позволяет легко добавлять новые домены и data-продукты. Благодаря такой организации рабочего процесса командам становится гораздо проще адаптироваться к растущим объемам данных и изменяющимся потребностям бизнеса.
- Домены, обладающие данными, заинтересованы в их качестве и актуальности, что приводит к повышению доверия к данным и улучшению принятия решений на их основе.
- Data-продукты упрощают доступ к данным и их использование для анализа, создания ML-моделей и принятия эффективных решений.
- Доменные команды объединяют специалистов из разных областей, что приводит к лучшему пониманию потребностей бизнеса и повышению эффективности IT-решений.
- Data Mesh способствует лучшей отслеживаемости происхождения данных, пониманию их связей и ответственности за их качество (так как есть домен, который следит за актуальностью генерируемых им data-продуктов).
- Децентрализованная модель позволяет быстрее реагировать на новые потребности бизнеса, так как домены имеют больше автономии и гибкости в разработке и предоставлении data-продуктов.
По теме. «Осторожно, данные»: как безопасно взаимодействовать с LLM
Недостатки внедрения Data Mesh
- Имплементация подхода потребует серьезных изменений в культуре компании: понадобится полное перераспределение ответственности и изменение принципов взаимодействия между подразделениями. Зачастую не все сотрудники рады новым концепциям. Особенно это касается тех специалистов, которые привыкли к одному стилю работы, нашли свою зону комфорта и не хотят ничего менять. В ходе внедрения Data Mesh бизнесу придется преодолеть сопротивление изменениям, обеспечить обучение персонала и создать эффективную систему коммуникации между доменами.
- Придется создать платформу данных самообслуживания, которая будет отвечать потребностям разных доменов. Помимо создания такой платформы, нужно обеспечить интеграцию данных из разных источников и после ее запуска поддерживать единые стандарты управления и безопасности.
- Переход на Data Mesh — не спринт, а марафон. Внедрение подхода может занять несколько лет и потребовать значительных инвестиций в разработку платформы, обучение персонала и реорганизацию процессов. Несмотря на очевидные плюсы, которые бизнес получит в конечном итоге, не каждый руководитель решится на столь серьезные и длительные перемены.
Чего ожидать в будущем
Data Mesh, на наш взгляд, не просто новый тренд, а смена парадигмы в управлении данными, которая со временем разойдется по компаниям. Такой подход требует от организаций готовности к изменениям. Но при успешной реализации Data Mesh обеспечит компании преимущества: повысит эффективность и точность работы.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Кейсы предпринимателей: как справиться с вызовами»
- 1 Правила разработки приложений для детей — этические и юридические аспекты
- 2 Логирование: понятие, механизмы и уровни
- 3 Понимание CAP-теоремы: согласованность, доступность, устойчивость данных
- 4 Как работает веб-скрейпинг и зачем он нужен
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025