Мартин Уилкокс

Большие данные должны приносить практическую пользу бизнесу – или умереть

Мартин Уилкокс, директор направления Big Data в корпорации Teradata, рассказывает, что на самом деле происходит в сфере больших данных и как она будет развиваться дальше. 


Что произошло с Big Data

Начнем с того, что слухи о смерти термина Big Data существенно преувеличены.

Мнение, что «Big Data умирает», возникло после того, как Gartner не указал Big Data как класс в цикле зрелости технологий от 2015 года.

Однако, согласно этой же модели Gartner, разговоры о смерти или переоцененности технологии – как раз хороший признак! Он означает, что пик завышенных ожиданий прошел и начался переход к широкому распространению технологии и практическому ее применению в бизнесе с получением реальной пользы и выгоды. Собственно, поэтому сейчас в контексте обсуждения и использования Big Data правильнее фокусироваться на бизнес-проблемах в первую очередь, и только во вторую – на технологиях.

Сегодня популярно и мнение о том, что Интернет вещей (IoT) сливается с Big Data, одно понятие подменяет собой другое. Нужно отметить, что это разные стороны одной и той же медали.

Когда мы впервые начали работать с Big Data, существенными ограничениями были затраты на сбор больших объемов данных и высокая стоимость их хранения. Сейчас мы можем дешево хранить и обрабатывать поистине огромные массивы данных. Стоимость сбора данных зависит от стоимости специальных смарт-датчиков, которая стремительно падает.

Таким образом, наблюдается растущая «инструментализация» продуктов и процессов в области Big Data по сравнению с предшествующим периодом.




Реальные проблемы в Big Data

Можно сказать, что обсуждение смерти термина и его слияние с IoT – это такой уводящий в сторону от реальности прием. Что-то вроде фокуса: все смотрят не туда, куда нужно.

Отрасль действительно претерпевает изменения, но они касаются более привычных нам бизнес-вызовов. Их можно сгруппировать в три направления: организационные проблемы, культурные аспекты и вопросы, связанные с технологией и архитектурой.

  1. Организационные проблемы сводятся к недостатку необходимых компетенций в компаниях. Особенно – если мы говорим о направлениях Data Science и Data Engineering.

    Что это значит? По сути, надо организовывать с нуля новые отделы и коллективы людей, профессий которых еще вчера не существовало. И надо добиться, чтобы эти коллективы эффективно работали – зачастую в условиях полной неопределенности и отсутствия регламентов работы.

  2. В плане корпоративной культуры ситуация довольно интересная, поскольку сегодня множество организаций заявляют о своем желании стать data-ориентированными и опираться на работу с данными.

    Однако это подразумевает поддержку и вовлеченность высшего руководства, использование BIaaS (системы бизнес-аналитики как сервис) для разработки продуктов, процессов и систем для сбора данных с нуля и т.п., на что в реальности готовы пойти не в каждой компании.

  3. Что касается технологий и архитектуры, то есть аксиома: единого решения или продукта не существует, и мы нуждаемся здесь в нескольких технологических платформах. Data Warehouse – хранилища данных –необходимы для структурированных данных, поскольку они успешно решают задачи пересекающихся бизнес-процессов и межфункциональных задач различных департаментов.

    Также нам необходимы Data Lake –решения для хранения сложных мультимедиа данных и данных, структура которых меняется очень быстро, равно как и большие объемы относительно менее ценных данных. В архитектуре нужно обеспечить режим псевдореального времени (режим работы с данными, близкий к реальному времени), возможность оперативно и эффективно перемещать данные между исходной и целевой системами и делать первичную обработку данных, что называется, «на лету».



Как работает Bid Data сегодня

Актуальные направления работы с Big Data можно очень грубо разбить на две категории:

  • Работа с новыми типами данных

Например, мы работаем с заказчиками из сферы финансовых услуг, которые предоставляют клиентам технологии и подходы Big Data для анализа их расходов. Решения автоматически распределяют транзакции и позволяют понимать, сколько средств тратится на еду, жилье, транспорт и прочее. Это новый продукт в том плане, что Big Data создает новую ценность одновременно и для клиента, и для банка. Помогая сэкономить на некоторых статьях бюджета, банк также предлагает клиенту возможность вложить сэкономленное в свои инвестиционные программы, то есть использовать с пользой средства, которых у клиента ранее попросту не было.

  • Новые аналитические техники для оптимизации процессов 

Например, в США один из наших клиентов – ритейлер, который использует пользовательские отзывы из Twitter, Facebook и Yahoo для того, чтобы понимать, как потребители оценивают его магазины. Он также может отслеживать, что покупатели думают об ассортименте магазинов – нравится он им, не нравится или оставляет равнодушными.

Мы можем показать нашим клиентам, что эмоции по поводу их компании можно с легкостью соотносить с бизнес-показателями. Это те задачи, с которыми магазины и рестораны сталкиваются при внедрении клиентских программ лояльности, и возможности Big Data в этом отношении позволяют принимать решения гораздо быстрее, чем на на основе отчетов и опросов, поскольку эти процессы происходят в псевдореальном времени.


Конечно, эффективность Big Data зависит от конкретного кейса и того, чего вы хотите достичь.

Сейчас востребованы короткие проекты с мгновенным результатом – не более 6 недель вместо 6-9 месяцев, как раньше.

Традиционный подход базировался на ресурсоемких и длительных процедурах разработки аналитических решений еще на подготовительном этапе, задолго до того, как мы понимали, будет ли проект в принципе генерировать дополненную ценность.

Сейчас мы говорим: «давайте продумаем кейс, новый подход к решению существующих проблем и проведем минимально затратный эксперимент, который позволит нам либо подтвердить нашу способность решать проблемы в масштабах всего кейса, либо покажет, что это не так».

Эксперимент либо становится рабочим решением, либо нет. Обычно это означает его интеграцию с существующими операционными процессами таким образом, чтобы мы могли либо автоматизировать принятие решений, либо предоставить человеку право действовать или рекомендовать ему схему действий в правильный момент и через оптимальный канал.




Как будет работать Big Data завтра

Нам повезло жить в период, когда за несколько весьма насыщенных лет мы увидим появление новых технологий, особенно из области open source, которые очень быстро будут выходить на рынок. Это фантастический опыт, поскольку мы получаем множество возможностей, которыми 10 лет назад просто не обладали.

Мне кажется, что в этом сегменте произойдет консолидация аналитических технологий в единое интегрированное решение.

Мы увидим слияние технологий, возможно, исчезновение некоторых из них. На данном этапе довольно сложно сказать, каким именно образом это произойдет, но это случится совершенно точно.

Семейство технологий, которые мы сегодня называем «извлечение данных» (Data Mining), «машинное обучение» (Machine Learning) и «искусственный интеллект» (Artificial Intelligence), станут в будущем сверхпопулярными и развитыми решениями. Аналитические фреймворки, объединяющие в себе множество технологий и хранилищ данных, также могут рассчитывать на яркое будущее.

Будущее Big Data состоит в работе команд аналитиков с подготовкой в самых разных дисциплинах, исследователей в области данных, а также отраслевых экспертов, работающих над проблемой сообща. С другой стороны, их работа даже в самых абстрактных и научных формах не может полностью отрываться от «земной» специфики, она должна носить прикладной характер и ориентироваться на задачи бизнеса.

Польза для бизнеса – единственный залог самого существования индустрии Big Data.


Материалы по теме:

Как использовать большие данные в рекламе

6 крутых русских в мире блокчейна

8 технических навыков, за которые в Кремниевой долине платят более $110000 в год

Специалисты по big data могут зарабатывать космические суммы

Хакер с Двача о взломе сотни компьютеров: «Наша задача — защитить людей»


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно