Истории
DIG(IT)AL

База данных, озеро данных или хранилище данных: что выбрать для хранения информации

Истории
Дарья Сидорова
Дарья Сидорова

Редактор отдела «Истории».

Дарья Сидорова

Повсюду нас окружает информация, которую необходимо где-то хранить. Ее можно поместить в базу данных, хранилище данных или озеро данных. Какой же из этих вариантов выбрать? Подробно рассказываем о значении каждого термина, приводим примеры применения и список доступных технологий.


В проекте Dig(IT)al рассказываем о технологиях, которые помогут вам заработать. Переходите на цифровую сторону бизнеса.


База данных, озеро данных или хранилище данных: что выбрать для хранения информации

База данных (Database)

Сегодня этот термин обозначает как программное обеспечение, содержащее информацию, так и саму информацию, которая в нем хранится. Разработчики используют его в значении коллекции данных, поскольку ПО должно знать, что заказы хранятся на одной машине, а адреса — на другой. Пользователи, как правило, не знают, где находятся значения, а потому могут называть базой данных всю систему. 

Последние новости, актуальные события и нетворкинг в AgroTech-комьюнити — AgroCode Hub. Присоединяйся!

Для большинства корпоративных вычислений используются реляционные базы данных, обладающие следующими свойствами.

  • Организуют информацию в столбцы и строки, составляющие таблицы, которые можно разделить на несколько подтаблиц.
  • Иногда содержат индексы, упрощающие поиск.
  • Могут использовать SQL-запросы и сложное планирование, чтобы быстро сокращать количество повторяющихся элементов и создавать краткие отчеты.

В последнее время также начали распространяться нереляционные типы баз данных или NoSQL, которые не хранят информацию в реляционных таблицах. Они дают разработчикам большую гибкость, например позволяют добавлять новые поля или элементы для отдельных записей.

Но в некоторых случаях баз данных бывает недостаточно.

Хранилище данных (Data Warehouse)

Это понятие обозначает набор баз данных, некоторые из которых могут иметь менее структурированный формат. Хранилище данных позволяет компаниям долго хранить хранить информацию, которая накапливается ежедневно, а также создавать отчеты и анализировать данные.

В процессе построения хранилища данных нужно не только выбрать базу данных и структуру таблиц, а также разработать политику хранения. Такие хранилища часто включают сложную аналитику, чтобы создавать статистику для изучения изменений с течением времени. Они, как правило, тесно интегрированы с графическими инструментами для создания информационных панелей и инфографики. Это позволяет быстро визуализировать обнаруженные изменения. 

Обычно термин «‎хранилище данных» описывает относительно сложную и унифицированную систему, которая структурирует информацию определенным образом.

Озеро данных (Data Lake)

В то время как хранилище данных обычно содержит информацию, структурированную реляционным образом, озеро данных включает больше необработанных «‎сырых» данных для последующего моделирования и анализа. Иногда такая система даже не использует базы данных, а хранит информацию в плоских файлах (Flat Files) и журналах. Она отлично подходит для хранения большого количества записей, которые могут пригодиться в будущем. 

Иногда понятия «‎хранилище данных» и «‎озеро данных» используются для обозначения одной и той же системы. Входящие необработанные данные хранятся в озере данных, а после анализа и структурирования попадают в хранилище данных.

Области применения

Перечисленные выше системы могут иметь различную архитектуру и структуру в зависимости от потребностей бизнеса. Вот несколько примеров.

  • Компания прямой доставки (дропшиппинг). Она продает гаджеты через интернет-магазин, а их изготовлением и хранением занимается производитель. Такая компания использует простую базу данных, чтобы отслеживать заказы, и обычно удаляет записи после их выполнения. Она часто меняет ассортимент товаров, а потому не нуждается в архивных данных.
  • Врачебный кабинет. В медицинской отрасли действуют установленные правила для защиты конфиденциальности пациентов. Такая компания использует специальный сервис для хранения записей, из которого можно извлечь информацию в долгосрочном периоде. Такой сервис выступает в качестве озера данных, потому что у врача и пациентов нет необходимости в сравнении и сопоставлении результатов лечения.
  • Производственное предприятие. Компания занимает доминирующее положение в стабильно развивающейся отрасли, а потому должна принимать разумные решения в отношении долгосрочных тенденций в области продаж и ценообразовании. Ей нужно сравнивать показатели продаж по регионам в течение определенных периодов времени. Хранилище данных, способное выполнять сложные запросы, значительно упрощает управление такой цепочкой поставок.
  • Группа безопасности сети. Маршрутизаторы и коммутаторы собирают множество необработанных данных о пакетах, которые перемещаются по сети, на случай, если потребуется проанализировать какие-либо аномалии. Эти «‎сырые» значения хранятся в большом озере данных в течение нескольких недель. Если не происходит никаких необычных событий, информация удаляется без анализа.
  • Компания по исследованию лекарственных препаратов. Она собирает «‎сырые» данные об испытаниях препаратов и составляет сводные отчеты. Компании нужно сохранить эту информацию на неопределенный срок — она пригодится будущим исследователям и органам регулирования. Для этого используется озеро данных, а сводные отчеты отправляются в хранилище.

Продвинутые предложения для хранения данных

В этой сфере есть два основных направления. Некоторые компании, создающие традиционные базы данных, добавляют функции поддержки анализа и превращают готовый продукт в хранилище данных. В то же время они разрабатывают обширное облачное хранилище с аналогичными функциями для других организаций.

Microsoft

Компания объединила возможности хранилища данных в сервисе Azure Synapse Analytics. Он включает облачное хранилище Microsoft Azure с различными системами, некоторые из которых задействуют искусственный интеллект. Инструмент предназначен для обработки петабайт данных с помощью таких технологий, как Apache Spark, которая преобразовывает, анализирует и запрашивает большие наборы данных. Microsoft также предоставляет различные тарифы для хранения и вычислений. Это позволяет пользователям, которым не требуется аналитика, сэкономить средства.

Некоторые из этих хранилищ и аналитических возможностей Microsoft доступны и в качестве озера данных. Оно включает функции на базе SQL и предназначено для ‎данных любого размера, формы и скорости.

Oracle

Производитель ПО предлагает сервис для хранения данных Autonomous Data Warehouse, который объединяет автономную базу данных с рядом инструментов и продвинутыми аналитическими системами. Сервис выполняет всю работу по исправлению, масштабированию и защите данных. Компания также предоставляет некоторые возможности озера данных в рамках сервиса Big Data, в том числе классические инструменты, такие как Apache Spark.

IBM

IBM Db2 — семейство систем управления реляционными базами данных, которое предоставляет облачные сервисы для создания хранилищ данных. Инструмент, также доступный как контейнер Docker для локального размещения, объединяет машинное обучение, аналитические системы для статистической и параллельной обработки, а также инструменты миграции для интеграции источников данных.

Прочие предложения для хранения данных

Многие хранилища и озера данных создаются локально внутренними командами разработчиков и обычно предназначены для построения надежных архивных записей, доступных для анализа в долгосрочной перспективе.

Amazon

Облачные компании предлагают два различных решения. Первое — для хранения данных. Например, Amazon предоставляет широкий спектр инструментов для хранения информации по различным ценам. Стоимость некоторых уровней составляет менее $1 в месяц за хранение терабайта данных, при этом за извлечение может взиматься дополнительная плата. Некоторые из более бюджетных вариантов, например Glacier, также используют базовые SQL-запросы для поиска определенных элементов. Помимо этого, Amazon предлагает широкий спектр аналитических инструментов, например облачное хранилище данных RedShift.

Google

Иногда аналитические инструменты объединяют с памятью, в результате чего создаются хранилища или озера данных. К примеру, база данных BigQuery от Google интегрирована с некоторыми МО-инструментами Google, что позволяет использовать ИИ для работы с данными, которые уже хранятся на дисках.

Backblaze

Другие предлагают лишь отдельные возможности. К примеру, на сервисе Backblaze можно хранить данные по более доступным ценам, чем у других облачных провайдеров. Его API работает по тому же принципу, что и Amazon S3.

Прочие

Другие сервисы могут работать с любыми источниками данных. Среди них — Teradata и Snowflake. Обе компании предоставляют инструменты для добавления анализа к данным и используют мультиоблачную стратегию.

Ограничения базы данных

Как правило, база данных меньше, чем ‎хранилище данных и ‎озеро данных. Однако эти термины еще не имеют четких определений. Как правило, это коллекции баз данных, которые могут быть как объединены в одном продукте, так и представлять собой набор информации из разных источников.

Источник.

Фото на обложке: sdecoret / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Фотоны против хакеров: как квантовые технологии оберегают данные корпораций
  2. 2 Соберут все данные: чем может обернуться перезапуск Единой биометрической системы
  3. 3 Советы этичного хакера: как защитить свои личные данные от мошенников
  4. 4 О чем следует помнить при выборе облачного хранилища: истории компаний
AgroCode Hub
Последние новости, актуальные события и нетворкинг в AgroTech-комьюнити — AgroCode Hub
Присоединяйся!