Колонки

Можно ли не зависеть от больших данных?

Колонки
Андрей Черногоров
Андрей Черногоров

Основатель российской «Ассоциации директоров по закупкам», системы закупок Bidzaar

Андрей Черногоров

«Маркетинг отношений» под прицелом больших данных. О том, как мы живем в эпоху big data и чем это грозит – в статье «Большие данные в масштабах государства» рассказывает Андрей Черногоров, генеральный директор компании Cognitive Technologies.

Можно ли не зависеть от больших данных?

Data ex machina

«Deus ex machina» (лат. «бог из машины») — выражение, означающее неожиданную развязку ситуации, с привлечением внешнего, ранее не действовавшего в ней фактора.

«Невелика штука – предсказывать будущее; вы лучше попробуйте разгадать настоящее!» – любил говорить Гуго Штейнгауз, польский ученый, один из основоположников Львовской математической школы.

Наша способность анализировать прошлое, основываясь только на его изучении, креативных или математических методах, стремительно иссякает.

Информационная вселенная, которая разрастается с каждой секундой, заставляет сознание работать в конвейерном режиме: оно фокусируется лишь на ничтожно малых фрагментах общей картины, чтобы решить сиюминутную задачу. После чего фокус уходит к следующему участку информации.

По теме: Как big data освободила от работы целый отделВ подобном марафоне данных почти невозможно ориентироваться, что приводит к колоссальным стрессам организма, ошибкам в расчетах, резком уменьшении горизонта любого планирования. Всемирная организация здравоохранения прогнозирует, что уже к 2020 году депрессия, в том числе вызванная информационной передозировкой, станет второй по распространению причиной смертности в мире и охватит не менее 30% взрослого населения Земли. Между тем именно «скальпель» системного подхода в прежние времена позволял человечеству кристаллизовать свои знания о мире, совершать открытия и технические революции. В новом времени систематизация данных уже невозможна в ручном режиме – эту задачу делегировали машинам и компьютерным алгоритмам. Параллельно выяснилось, что питательная среда информационного поля богата уникальными, ранее никем не исследованными закономерностями и глобальными тенденциями, по которым можно выстраивать экономику, обеспечивать безопасность, реформировать образовательную систему в масштабах целых государств.

Согласно анализу сетевого пространства алгоритмами Google Trends, термин «большие данные» (big data) начал активно использоваться совсем недавно, в 2011 году. Но сразу стало понятно, что комплекс описываемых им решений, подходов и технологий по получению, обработке и интерпретации информации – это привет от сверхчеловека. Большие данные потому и есть «большие», что люди сами по себе никогда не смогут самостоятельно охватить все их многообразие и хоть как-то обуздать себе во благо. Этим укрощением занимаются роботы. Они находят уникальные открытия и инсайты, работая с той информацией, которая десятилетиями была у нас под носом, но до которой нам самим не было никакого дела (неслучайно многие называют большие данные новой нефтью). Они помогают оптимизировать работу уже существующих систем. Они стремительно выкатывают страны в эпоху шестого технологического уклада, где главным достижением становится повсеместная персонализация производства и потребления. Большие данные говорят обо всех нас вместе и о каждом из нас по отдельности. Эти данные улучшают нашу жизнь, но в одночасье способны и испортить ее. 

Как работают большие данные, в чем их глобальные преимущества и недостатки?

Мы разберемся в этом явлении вместе с вами и рассмотрим феномен big data сразу с нескольких ракурсов. Как предприниматели и специалисты информационно-коммуникационной отрасли – чтобы понять его маркетинговую сущность. Как психологи – чтобы оценить гуманистические корни этого явления, прежде всего, в связи с целым веером этических вопросов о сборе такого рода информации и тайне личной жизни. Как социологи – чтобы изучить, как под действием big data изменится ландшафт наших профессий, привычек и норм. Наконец, просто как люди своей эпохи – чтобы узнать, почему большие данные используют государства и не являются ли они новой универсальной формой политического строя – информационным тоталитаризмом.

Большие данные в эпоху маркетинга отношений

Значительную долю информационного потока, в котором находится современный человек, создают датчики «интернета вещей» — тысячи повседневных мини-устройств, которые имеют уникальные идентификаторы и могут автоматически регистрировать, собирать и получать данные об активности их владельцев. Ранее мы уже говорили о том, насколько колоссален этот объем.  

По данным ежегодного исследования «Цифровая вселенная», проводимого аналитической компанией International Data Corporation по заказу EMC Corporation, к 2020 году вселенная цифровых данных увеличится десятикратно, с 4,4 трлн гигабайт до 44 трлн.

Теперь обратимся непосредственно к механике действия больших данных.

По теме: 11 рисков при работе с big dataСледует понимать, что современным корпоративным ИТ-решениям, в том числе CRM-  и ERP-системам, с каждым годом придется иметь дело со все большим количеством параметров и метрик, на которых базируется их data mining, направленный на формирование, поддержание и развитие клиентской лояльности.

При глубинном анализе становится видно, что задача импортозамещения в ИТ-сфере представлена гораздо шире, чем простая необходимость постепенной замены в отечественных госструктурах того или иного западного ПО. Отчасти вынужденная, но давно назревшая диверсификация экономики; федеральная целевая программа «Электронная Россия», давшая мощный толчок капитализации крупнейшим системным интеграторам России и к 2010 году сформировавшая базовый контур технологий «электронного правительства», — все эти и многие другие явления, как нам кажется, выводят страну на мощный маневр с амбициозной задачей: в масштабах целого государства постепенно перейти от транзакционного маркетинга к маркетингу отношений.

Ключевым вопросом в новой системе ценностей становится фактор клиентского сервиса и технологий управления лояльностью конечных потребителей.

На практике это означает, что ключевое значение в современной коммуникации с клиентами имеет индивидуальная подстройка под специфические личные запросы конкретного человека.

Продуктовая кастомизация, зародившаяся как мощный международный тренд на потребительском рынке в начале нулевых годов, переживает второе рождение в эпоху больших данных.

По теме: Не открывайте онлайн-аптеки и не выпускайте медицинские гаджетыБольшие данные нагляднее всего показывают, что окружающий мир состоит из самых разных информационных сигналов. Вокруг нас существует огромное количество маленьких причин и следствий, которые не столько объясняют, сколько описывают происходящие ежедневные процессы: покупки в магазинах, передвижения по городу, взаимодействия с другими людьми с помощью компьютерных устройств, работу, учебу и отдых. Автоматизированный алгоритм смотрит на множество мелких сигналов и пытается понять, как из массива информации вычленить коррелирующие данные. Взаимосвязи между разными кусочками данных используются для построения глобальных статистических систем. Персонализированный подход к клиентам реализуется, таким образом, через обработку больших массивов информации. Такие данные до момента их сбора и обработки существуют как бы сами по себе, непроизвольно накапливаясь. Это может быть информация обо всех покупках в крупной ритейл-сети, мобильный телефон с навигатором, история просмотров в браузере, электросчетчик в квартире, фитнес-браслет у вас на запястье.

Большие данные гораздо сильнее интегрированы в нашу жизнь, чем нам кажется, и говорят о нас больше, чем мы осознаем, и больше, чем мы хотели бы передавать другим людям. Например, с помощью счетчиков на воду и электричество в наших квартирах собираются большие данные о жилом фонде и энергопотреблении отдельной квартиры, дома, целого квартала и города. По колебаниям потребления воды и электричества в течение суток можно точно определить, сколько людей проживают в квартире, и даже какой образ жизни они ведут, все ли члены семьи работают, есть ли в доме дети и так далее. Эти гипотезы формируются и затем проверяются до максимально достоверного уровня полностью по косвенным данным. Их можно использовать, чтобы улучшить нашу жизнь или разработать новый сервис под запросы клиентов. Данными является все, что можно собрать и интерпретировать, при этом большие данные хранятся, как и вся остальная информация, на серверах и физических носителях. Если структурированные данные всегда изучаются заранее спроектированными формулами, то неструктурированные данные исследуются более общими алгоритмами, которые пытаются найти в них «то не знаю, что». До момента нахождения тренда или неожиданной, новой корреляции данных невозможно предсказать, о чем будет этот тренд. Вся работа с данными происходит автоматизировано и в режиме реального времени.

Как нам придется хранить данные

Как правило, большие данные используются по двум сценариям: структурированные и хорошо разбитые базы с грамотной архитектурой используются для быстрых запросов, а неструктурированные сырые данные – для сложных разовых.

Если в двух словах описать нюансы системной архитектуры для обработки больших данных, то все сводится к тому, что традиционные базы данных хранят информацию дисперсионно. Например, у телефонного оператора номера абонентов могут быть на одном сервере в одной таблице, а балансы на их счетах — в другой таблице. Быстродействие требует максимального разбиения данных. Поэтому, к слову, базы данных международных социальных сетей устроены по такому же принципу. Данные пользователей того же Facebook, как известно, делятся не по географическому принципу (данные об американских пользователях – на серверах в США), а по типу данных. Например, комментарии пользователя из любой точки мира могут храниться на сервере в одной стране, а сведения о его работе — в другой, «лайки» и репосты вообще может обрабатывать отдельный ЦОД.

Но как только мы начинаем делать сложные и глобальные запросы, достраиваемые вручную в режиме реального времени, производительность «классической» системы резко падает.

По мере усложнения запросов к большим данным требуется новая архитектура хранения информации.

Если вам нужны гибкие запросы, то проще всего хранить данные неструктурированно — потому что для каждого нового запроса придется иначе строить новую оптимальную структуру. Обычные базы данных направлены на максимальное быстродействие в рамках ограниченных вычислительных ресурсов. В то время как базы данных для обработки big data строятся без особой оглядки на аппаратные ограничения физической среды и считают приоритетом выполнение поставленной задачи. Например, MapReduce, известная модель распределенных вычислений, представленная компанией Google, для извлечения уникальных паттернов и проверки гибких гипотез в массиве информации использует принципы параллельных вычислений над очень большими наборами данных в несколько петабайт.

Продолжение статьи доступно тут.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Два кейса: как заставить науку работать на рынок
  2. 2 Этот художник многому научил наших айтишников
  3. 3 Как мы пытались примирить молодых менеджеров и докторов наук РАН
  4. 4 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
  5. 5 Цифровые двойники: как работают, зачем нужны и как смоделировать своего