Истории

Шесть трендов в сфере данных и аналитики в 2022 году

Истории
Дарья Сидорова
Дарья Сидорова

Редактор отдела «Истории».

Дарья Сидорова

На протяжении десятилетий управление данными предполагало их сбор и хранение, а также возможность периодически получать к ним доступ. За последние годы подход изменился. Теперь бизнесам необходимо принимать важные решения, основываясь на огромных массивах информации, которая хранится различными способами — от корпоративных датацентров до облаков.

В результате аналитика данных на базе ИИ и МО приобрела критически важное значение. В 2022 году эта тенденция продолжится, а ассортимент инструментов будет расширяться. Вот несколько предстоящих трендов.

Шесть трендов в сфере данных и аналитики в 2022 году

Инновации для структурирования данных

В аналитике корпоративных данных используются два подхода.

  • Первый — собрать данные из бизнес-приложений (CRM и ERP) и импортировать их в хранилище, чтобы затем использовать в BI-системах. Сейчас все большую популярность набирают облачные технологии, такие как Snowflake. При таком подходе данные организованы последовательно.
  • Второй — собрать любые необработанные данные и импортировать их напрямую в озеро без какой-либо предварительной обработки. Для этого подходит любой тип данных, и именно поэтому онлайн-хранилища, такие как Amazon S3, превращаются в массивные озера данных.

Проблема в том, что некоторые данные поддаются обработке лучше, чем другие. К примеру, журналы, геномные данные, аудио, видео, изображения и прочие плохо подходят для хранилищ. Причина — в нехватке согласованной структуры, что усложняет поиск. Из-за этого озера данных в конечном счете превращаются в «болота», в которых достаточно сложно что-то найти.

В результате был разработан data lake house (data lake+data warehouse), предназначенный для создания озер с полуструктурированными данными, имеющими некоторую семантическую согласованность. Концепция стала популярна благодаря DataBricks и продолжит развитие в 2022 году.

Формат data lake house подходят для файлов .csv и Parquet, а также других полуструктурированных данных. Тем не менее он не решает проблему несогласованности, так как не предлагает общность структуры. На сегодняшний день почти 80% мировых данных являются неструктурированными. Их оптимизация для аналитики — большая область для инноваций. 

Распространение citizen science

Гражданская наука (citizen science) — это научные исследования, которые добровольно проводит любой человек в партнерстве с профессиональными учеными.

Чтобы демократизировать науку о данных, поставщики облачных решений будут разрабатывать и выпускать больше инструментов на базе МО. В конечном счете эта тенденция приведет к сокращению количества кода, который будет необходимо писать. МО-системы станут доступны более широкому спектру специалистов как в сфере ИТ, так и в бизнесе.

Заставь искусственный интеллект самообучаться и совершенствоваться – выбирай онлайн-курсы в каталоге курсов по машинному обучению.

Amazon Sagemaker Canvas — один из примеров инструментов low-code/no-code, которые получат еще большее распространение в 2022 году. Гражданская наука еще только зарождается, но рынок уже движется в этом направлении. Платформы и решения, упрощающие работу с данными, займут более видное место.

Аналитика «правильных данных»

Большие данные создают болота, с которыми трудно работать. Поиск правильных данных, независимо от места их создания, и использование их в аналитике позволит сэкономить много времени, автоматизировать работу и получать более соответствующий анализ. Поэтому в следующем году вместо больших данных (big data) начнет развиваться аналитика «правильных данных» (right data).

Преобладание аналитики «на месте»

Согласно прогнозам, облачные озера станут основным местом сбора и обработки данных для исследовательской деятельности. Несмотря на то, что облачные решения набирают обороты, данные накапливаются и в других форматах хранения: на периферии, в облаке и в локальных хранилищах.

Иногда данные нужно обрабатывать и анализировать там, где они находятся, вместо того, чтобы перемещать их в центральное хранилище. Это более дешевый и быстрый способ. Реализовать его помогут облачные аналитические инструменты. В 2022 году появится больше «периферийных облак», в которых вычисления происходят на периферии датацентра.

Управление, ориентированное на данные

Фабрика данных — архитектура, которая обеспечивает видимость данных, возможность перемещать и копировать их, а также получать к ним доступ в гибридных облачных хранилищах.

Аналитика в режиме почти реального времени позволяет контролировать местонахождение данных в облаках и хранилищах. Это помогает убедиться, что они доберутся до нужного места в нужное время. Фабрики данных получат большую популярность и обеспечат управление, ориентированное на данные, а не на хранилища.

Вместо того чтобы хранить все медицинские изображения на одном NAS-сервере, можно будет воспользоваться аналитикой и отзывами пользователей, чтобы сегментировать их. Например, скопировать, чтобы предоставить к ним доступ МО-инструментам для клинических исследований. Или же переместить важнейшие данные в неизменяемые облачные хранилища, чтобы защитить их от программ-вымогателей.

Мультиоблака

Сейчас многие организации используют гибридные облачные среды, где большая часть данных хранится в частных датацентрах в системах от нескольких поставщиков. Неструктурированные данные многократно растут, поэтому облако используется как вторичный или третичный уровень хранения.

В таких условиях может быть непросто управлять расходами и рисками, а также обеспечивать производительность. ИТ-лидеры осознают: извлекать ценность из данных, распределенных по облачным и локальным средам, — сложная задача. Мультиоблачные стратегии дают наилучшие результаты, если использовать несколько облаков для различных случаев применения и наборов данных.

Однако возникает еще одна проблема — перенос данных из одного облака в другое обходится очень дорого. Новая концепция предлагает направить вычисления к данным, которые хранятся в одном месте. Таким центральным местом может быть сервер, расположенный в датацентре и напрямую связанный с облачными поставщиками.

Мультиоблако будет развиваться с помощью различных стратегий: иногда вычисления будут перемещаться к данным, а иногда данные будут находиться в нескольких облаках.

Источник.


Фото на обложке: Efman / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Уроки 2022: как изменился маркетинг в России и как работать с ним в 2023?
  2. 2 Тренд на глобальное сотрудничество и привлечение крупных игроков: какие обновления ждут агротех в 2023
  3. 3 Воспитать новых разработчиков и помочь российскому венчуру: представители IT-бизнеса о планах на 2023 год
  4. 4 Инвестиционные итоги — 2022: что произошло в прошлом году? Ключевые события
  5. 5 Топ-7 бизнес-книг 2022 года. Выбор экс-CEO книжного издательства
FutureFood
Кто производит «альтернативную» еду
Карта