Шесть трендов в сфере данных и аналитики в 2022 году
От аналитики «правильных данных» до мультиоблак
На протяжении десятилетий управление данными предполагало их сбор и хранение, а также возможность периодически получать к ним доступ. За последние годы подход изменился. Теперь бизнесам необходимо принимать важные решения, основываясь на огромных массивах информации, которая хранится различными способами — от корпоративных датацентров до облаков.
В результате аналитика данных на базе ИИ и МО приобрела критически важное значение. В 2022 году эта тенденция продолжится, а ассортимент инструментов будет расширяться. Вот несколько предстоящих трендов.
Инновации для структурирования данных
В аналитике корпоративных данных используются два подхода.
- Первый — собрать данные из бизнес-приложений (CRM и ERP) и импортировать их в хранилище, чтобы затем использовать в BI-системах. Сейчас все большую популярность набирают облачные технологии, такие как Snowflake. При таком подходе данные организованы последовательно.
- Второй — собрать любые необработанные данные и импортировать их напрямую в озеро без какой-либо предварительной обработки. Для этого подходит любой тип данных, и именно поэтому онлайн-хранилища, такие как Amazon S3, превращаются в массивные озера данных.
Проблема в том, что некоторые данные поддаются обработке лучше, чем другие. К примеру, журналы, геномные данные, аудио, видео, изображения и прочие плохо подходят для хранилищ. Причина — в нехватке согласованной структуры, что усложняет поиск. Из-за этого озера данных в конечном счете превращаются в «болота», в которых достаточно сложно что-то найти.
В результате был разработан data lake house (data lake+data warehouse), предназначенный для создания озер с полуструктурированными данными, имеющими некоторую семантическую согласованность. Концепция стала популярна благодаря DataBricks и продолжит развитие в 2022 году.
Формат data lake house подходят для файлов .csv и Parquet, а также других полуструктурированных данных. Тем не менее он не решает проблему несогласованности, так как не предлагает общность структуры. На сегодняшний день почти 80% мировых данных являются неструктурированными. Их оптимизация для аналитики — большая область для инноваций.
Распространение citizen science
Гражданская наука (citizen science) — это научные исследования, которые добровольно проводит любой человек в партнерстве с профессиональными учеными.
Чтобы демократизировать науку о данных, поставщики облачных решений будут разрабатывать и выпускать больше инструментов на базе МО. В конечном счете эта тенденция приведет к сокращению количества кода, который будет необходимо писать. МО-системы станут доступны более широкому спектру специалистов как в сфере ИТ, так и в бизнесе.
Amazon Sagemaker Canvas — один из примеров инструментов low-code/no-code, которые получат еще большее распространение в 2022 году. Гражданская наука еще только зарождается, но рынок уже движется в этом направлении. Платформы и решения, упрощающие работу с данными, займут более видное место.
Аналитика «правильных данных»
Большие данные создают болота, с которыми трудно работать. Поиск правильных данных, независимо от места их создания, и использование их в аналитике позволит сэкономить много времени, автоматизировать работу и получать более соответствующий анализ. Поэтому в следующем году вместо больших данных (big data) начнет развиваться аналитика «правильных данных» (right data).
Преобладание аналитики «на месте»
Согласно прогнозам, облачные озера станут основным местом сбора и обработки данных для исследовательской деятельности. Несмотря на то, что облачные решения набирают обороты, данные накапливаются и в других форматах хранения: на периферии, в облаке и в локальных хранилищах.
Иногда данные нужно обрабатывать и анализировать там, где они находятся, вместо того, чтобы перемещать их в центральное хранилище. Это более дешевый и быстрый способ. Реализовать его помогут облачные аналитические инструменты. В 2022 году появится больше «периферийных облак», в которых вычисления происходят на периферии датацентра.
Управление, ориентированное на данные
Фабрика данных — архитектура, которая обеспечивает видимость данных, возможность перемещать и копировать их, а также получать к ним доступ в гибридных облачных хранилищах.
Аналитика в режиме почти реального времени позволяет контролировать местонахождение данных в облаках и хранилищах. Это помогает убедиться, что они доберутся до нужного места в нужное время. Фабрики данных получат большую популярность и обеспечат управление, ориентированное на данные, а не на хранилища.
Вместо того чтобы хранить все медицинские изображения на одном NAS-сервере, можно будет воспользоваться аналитикой и отзывами пользователей, чтобы сегментировать их. Например, скопировать, чтобы предоставить к ним доступ МО-инструментам для клинических исследований. Или же переместить важнейшие данные в неизменяемые облачные хранилища, чтобы защитить их от программ-вымогателей.
Мультиоблака
Сейчас многие организации используют гибридные облачные среды, где большая часть данных хранится в частных датацентрах в системах от нескольких поставщиков. Неструктурированные данные многократно растут, поэтому облако используется как вторичный или третичный уровень хранения.
В таких условиях может быть непросто управлять расходами и рисками, а также обеспечивать производительность. ИТ-лидеры осознают: извлекать ценность из данных, распределенных по облачным и локальным средам, — сложная задача. Мультиоблачные стратегии дают наилучшие результаты, если использовать несколько облаков для различных случаев применения и наборов данных.
Однако возникает еще одна проблема — перенос данных из одного облака в другое обходится очень дорого. Новая концепция предлагает направить вычисления к данным, которые хранятся в одном месте. Таким центральным местом может быть сервер, расположенный в датацентре и напрямую связанный с облачными поставщиками.
Мультиоблако будет развиваться с помощью различных стратегий: иногда вычисления будут перемещаться к данным, а иногда данные будут находиться в нескольких облаках.
Фото на обложке: Efman /
-
Партнёрский материал Экс-директор Xiaomi о том, как делать сильные продукты и внедрять ИИ без иллюзий 06 апреля 2026, 16:14
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Бизнес «Точно розовый?»: как Eburet из табурета-трансформера вырос в B2B-бренд, который заходит на рынок в 50 млрд ₽ 11 февраля 2026, 19:48
-
Личное Евгений Касперский: «От пароля „123“ мы не спасаем. Но есть и хорошие новости» 04 февраля 2026, 12:35
-
Личное Бумеры изобрели воркейшен: кругосветные командировки Евгения Касперского 01 февраля 2026, 16:05
-
Искусственный интеллект Россияне скупают «железо» для самостоятельного запуска ИИ: спрос на топовые графические процессоры вырос на 91% 09 апреля 2026, 10:45
-
Искусственный интеллект Wildberries запустила ИИ-примерку косметики — пока нейросеть умеет наносить на фото только помаду и блёстки 08 апреля 2026, 13:34
-
Россия Каждый второй житель крупных городов России хотя бы раз пользовался самокатами Whoosh: чаще всего — в Екатеринбурге 09 апреля 2026, 10:00
-
Искусственный интеллект ВТБ тестирует переход на китайские видеокарты — банк может заменить ими графические процессоры от NVIDIA 08 апреля 2026, 21:00
-
Россия В работе «Ростелекома» произошёл масштабный сбой из-за DDoS-атаки — пользователи жалуются на проблемы с интернетом 06 апреля 2026, 23:59
-
Искусственный интеллект Потребление токенов в компаниях выросло на 32 000% — но только 9% бизнеса обеспечены инфраструктурой для ИИ 27 марта 2026, 17:30
-
Искусственный интеллект VK Tech купила CedrusData — независимого разработчика решений для больших данных и ИИ 27 марта 2026, 12:30
-
Бизнес В Москве проходит форум о целевых капиталах: бизнес обсуждает финансовую устойчивость НКО и их будущее 03 апреля 2026, 14:17