Что такое Big data: собрали всё самое важное о больших данных

Алиса Беркана

Редактор Rusbase

Расскажите друзьям
Алиса Беркана

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.

Что такое Big data

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также: Как зарождалась эра Big data

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.


Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также: Мир Big data в 8 терминах 

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.


Кеннет Кукьер: Большие данные — лучшие данные


Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также: Big data: анализ и структурирование

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;

  • Краудсорсинг;

  • Смешение и интеграция данных;

  • Машинное обучение;

  • Искусственные нейронные сети;

  • Распознавание образов;

  • Прогнозная аналитика;

  • Имитационное моделирование;

  • Пространственный анализ;

  • Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Аппаратные решения.

Читайте также: Big data: семантический анализ данных и машинное обучение

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.


Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?


Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Читайте также: «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.


Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день. 


Рынок Big data в России

В 2017 году мировой доход на рынке Big date должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Читайте также: Как устроен рынок Big data в России

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.



15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.

Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».



Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.


Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Читайте также: Кто делает Big data в России?

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.


Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Читайте также: Как заставить большие данные работать на ваш бизнес

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Читайте также: 6 современных тенденций в финансовом секторе

Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведение бизнеса в реальном времени. Платфторма автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.


Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

Читайте также: Чем полезны большие данные для рекламного бизнеса?

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Читайте также: Большие данные должны приносить практическую пользу бизнесу – или умереть



Биг дата изменит мир?

От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника». 

А что вам интересно было бы узнать о больших данных? Пишите в комментариях :)


Материалы по теме:

Некоторые специалисты по big data могут зарабатывать космические суммы

Можно ли не зависеть от больших данных?

Как стартапы могут использовать данные, чтобы стать умнее

Как FinTech использует большие данные — хрестоматийные примеры


Комментарии

  • Елена 06:34, 18.05.2017
    1
    • Голов Игорь Михайлович Голов Игорь Михайлович
    А кто из российских интеграторов серьезно занимается Big Data? Несмотря на оптимистичные цифры роста интереса к этой теме, что-то я не наблюдаю массового спроса на информационные технологии внедрения?
  • Елена Svetlana Zykova 08:57, 23.05.2017
    1
    • Голов Игорь Михайлович Голов Игорь Михайлович
    По российскому рынку у нас есть отдельный большой материал: https://rb.ru/howto/big-dat..., в том числе с информацией об интеграторах!
Комментарии могут оставлять только авторизованные пользователи.
BigData Conference (ICBDA'2017)
15 сентября 2017
Ещё события