Андрей Черногоров

Сегодня нас скомпрометирует любая мелочь

О том, как мы живем в эпоху big data и чем это грозит – в статье «Большие данные в масштабах государства» рассказывает Андрей Черногоров, генеральный директор компании Cognitive Technologies. Сегодня – заключение, про большие данные как инструмент цензуры и будущее big data в глобальной перспективе.


Первая часть статьи «Большие данные в масштабах государства» доступна тут. Вторая – тут.


Big data в целях государства

После того, как стал понятен весь потенциал больших данных, их захотели собирать и государство, и частный бизнес. Ведь это возможность кастомизировать свои услуги на принципиально ином уровне. Есть уникальные потребности человека, а большие данные дают ключ к их персонализированному удовлетворению.

В будущем миру будут нужны прикладные специалисты, которые специализируются на работе с большими данными и в какой-нибудь конкретной отрасли – для проведения длительных глобальных исследований, результаты которых будут переворачивать отрасль с ног на голову. Например, металлургия и big data, медицина и big data, образование и big data.

Но с появлением новой профессии должна сформироваться и ее нормативно-правовая экосистема.

До появления машин не существовало правил дорожного движения, а сегодня ПДД – регламентирующая основа для езды по дорогам. Подобное правовое регулирование должно в скором времени опоясать и сферу добычи и обработки больших данных. Краеугольным камнем, конечно, станет частная жизнь людей. В нашей стране акцент, вероятно, будет сделан на масштабные обновления в 152-ФЗ о персональных данных или же на отдельный законопроект в этой области. Ведь вопрос о том, как далеко может зайти интерпретирование больших данных в нуждах компаний и госсектора, остается волнующим и открытым.

Современные системы аналитики больших данных дают возможность не только выделить и проанализировать большие объемы информации в реальном режиме, визуализировать полученную информацию о состоянии бизнеса, но и сделать реалистичные прогнозы о его развитии, используя и сопоставляя при этом показатели из разных источников (в том числе на разных языках и в разной системе мер и классификаторов).

В масштабах бизнеса подобные прогнозы, как правило, значительно объективнее, взвешеннее, чем при работе с конечными физическими лицами.

Нашей компании часто приходится работать с большими данными как с Кубиком Рубика, складывая и просчитывая все новые комбинации и закономерности данных. Шутка ли – выстроить закупочную систему для целого мегаполиса, чтобы абсолютно все позиции на государственных торгах, от метлы для дворника, то сталелитейной формы, автоматически обрабатывались. Для многостороннего анализа больших данных мы используем систему OLAP (online analytical processing). Она позволяет рассматривать различные срезы данных, в том числе временные, выявлять различные тренды и зависимости (по регионам, продуктам, клиентам, отраслям, типам компаний и т.п.). В систему анализа и обработки больших данных нам удалось внедрить модуль интеллектуального анализа (data mining). Он основан на сканировании и статистической обработке больших массивов данных и позволяет облегчить принятие верных стратегических решений, проанализировав весь комплекс вариантов развития событий. Таким образом, мы шаг за шагом стараемся приблизить роботизированные алгоритмы data mining к уровню логики и мышления живого бизнес-аналитика: ведь при работе с данными он вынужден учитывать не только все возможные сценарии и прогнозы развития событий, но и конъюнктуру рынка, а также все неожиданные обстоятельства, которые эта конъюнктура порождает. Например, при анализе данных в банковском секторе России такие прогнозы должны сегодня включать в себя и анализ вероятности отзыва лицензий, скорость принятия отраслевых законопроектов, находящихся на стадии согласования, и так далее.  

Выводы же, которые компании делают о потребителях в результате сбора и анализа больших данных, могут быть весьма неудобными и нежелательными для конечных клиентов. Так, немецкий финансовый стартап Kreditech при принятии решения о выдаче займа клиенту учитывает информацию из его аккаунта в Facebook. Подобные проекты есть и в России. В частности, финансовый проект Mili.ru выстроил на анализе социальных сетей всю свою систему скорринга заемщиков. Учитывается качество контента человека, его фотографии (по которым при должном подходе можно понять, какой образ жизни ведет заемщик и даже как именно он относится к трате денег), открытую переписку с другими пользователями (дабы избежать мошеннических операций). Однако Kreditech действует более искусно, а точнее, изощренно. Людей, претендующих на получение кредита, просят на время предоставить доступ к учетной записи в Facebook или другой социальной сети, после чего сотрудники проекта анализируют... список друзей потенциального заемщика. То есть анализу в области больших данных подвергается даже не текстовый контент, а список друзей, метаданные, где закономерности и какие-то прогнозы максимально абстрактны.

Пользователь может соблюдать все предосторожности и не болтать в интернете лишнего, но какая-нибудь мелочь в социальной активности все равно может каким-то образом его скомпрометировать.

В продолжение темы с Facebook стоит отменить и пугающе быстро набирающую обороты систему самообучаемой «ленты» в аккаунтах пользователей. Над алгоритмом ленты в Facebook в ее текущем виде работал Томас Миколов, авторитетный международный специалист в области глубинного машинного обучения. В свое время именно Миколов научил нейронную сеть GoogleBrain самообучаться и не просто распознавать картинки, но учиться их понимать, вне зависимости от качества исходного файла. Большие данные в применении к самообучаемой ленте Facebook проявляются в тех сигналах, которые пользователи самостоятельно отправляют в адрес данного алгоритма. Лента учитывает все: социальные связи пользователя и интенсивность его общения по кругам друзей (близкие и дальние родственники, одноклассники и коллеги по офису и пр.), желание или нежелания потребления определенного контента и соотношение лайков к реально открытым внешним ссылкам. В результате этого на наших глазах создается система, которая на основе больших данных не расширяет пользовательские возможности, но создает пагубную ситуацию, когда лента каждого пользователя превращается в уютную и прилизанную картинку виртуальной действительности и начинает замещать человеку реальность.

Большие данные как инструмент цензуры?

Подобное явление формирует конформизм в масштабах целой страны и представляет угрозу, куда более близкую к политике, нежели к социологии. Компьютерные алгоритмы, позволяющие людям очистить свой круг от людей, с чьей позицией или взглядами они не согласны, лишают частное информационное поле человека какой-либо полемики, что ведет к увяданию гражданской активности.

Алгоритмы Facebook олицетворяют такое явление из политологии и массовых коммуникаций, как «спираль молчания». Теорию в свое время предложила немецкий политолог Элизабет Ноэль-Нойман. Она утверждала, что человек с меньшей вероятностью выскажет свое мнение на ту или иную тему, если чувствует, что находится в меньшинстве, так как боится возмездия или изоляции.

В итоге можно предположить, что создание идеальных с точки зрения контента лент в социальной сети все меньше провоцирует людей на высказывание и трансляцию истинно своего мнения. Таким образом, здесь мы имеем дело с ситуацией, когда данные выявляют критические точки нашей собственной личности и выстраивают вокруг этой бреши свой воздушный замок, в то время как без привлечения big data любые «несовпадения» человека с социальным миром решались бы естественным путем, через планомерную коммуникацию (споры, отстаивания своей позиции).


Заключение

Мало кто помнит, но герой Роберта Редфорда из знаменитого шпионского триллера «Три дня Кондора» стал первым прообразом специалиста по сбору больших данных. Агент «Кондор» занимался тем, что по заданию ЦРУ целыми днями читал в офисе книги, газеты и другие открытие источники, чтобы находить в них интересные сюжеты и методы работы специальных служб, преступников, детективов и бизнесменов, а затем переносить все это в компьютер. Далее компьютерные алгоритмы анализировали новую загруженную информацию и сопоставляли ее с данными проектов ЦРУ, чтобы найти совпадения или, например, применить метод из какого-нибудь бульварного детектива в реализации сложно проекта контрразведки. По прошествии без малого сорока лет базовая механика работы с big data не изменилась. Для решения глобальной задачи в одной отрасли используются результаты не менее глобального исследования и решения из другой.

Нынешним экономически активным поколениям еще только предстоит узнать на своем веку, какие данные были собраны в ходе мероприятий на Болотной, на выборах в Мосгордуму или во время общественно значимых событий вроде Олимпиады и Чемпионата мира по футболу.

Просто время для использования и корреляции этих данных еще не наступило. Вполне вероятно, что большие данные будут развиваться именно в сторону предсказательной, а не объяснительной функции. Это продиктовано суровостью времени, где прагматичный расчет на прикладной характер науки берет верх над романтизированной вневременной теорией. Людям гораздо важнее будет понять, как на основе исследования больших данных максимально заблаговременно предсказать следующий финансовый кризис, который неизбежно однажды наступит, чем то, как в обычной жизни распоряжаются финансами жители отдельного взятого квартала (хотя и те, и другие данные, бесспорно, важны для понимания «общей картины»).

Удивительным образом почти все современные политические события – от кризиса европейской миграции, до санкционных баталий – можно просчитать с помощью больших данных. Все зависит только от целенаправленного желания облечь окружающую действительность в сотни метрик. А инструментарий найдется всегда.

Вопрос распространения и эволюции больших данных – это, прежде всего, вопрос человеческого отношения к информации и понимания ее истинной ценности. Первые американские машины на бензине имели огромные баки и двигатели, которые буквально сжирали топливо за неполную сотню километров, потому что к в то время к нему относились как к дешевому и легко восполняемому ресурсу, который, как тогда казалось, будет всегда. Сегодня гранды автопромышленности стараются оптимизировать двигатели с минимальным объемом, чтобы получать максимум энергии при минимуме потребления топлива.

Подобную эволюцию прошла и информация. Бумажные и мало систематизированные картотеки уступили место высокотехнологичным электрифицированным комплексам, где учитывается любая деталь, любая измеримая метрика книги и информация о ее владельцах. Большие данные в их современном понимании появились намного раньше, чем люди научились с ними работать. И нам предстоит совершить еще множество открытий в этой области – как приятных, так и неприятных, – прежде чем окончательно сформулировать для себя правила и ценности всего комплекса явлений и технологий, именуемых big data.  


Материалы по теме:

Можно ли не зависеть от больших данных?

Как большие данные вторгаются в частную жизнь

Когда «умных» машин будет больше, чем «умных» людей?

6 необычных областей, где применяют большие данные

Большие данные и большое будущее

Руководство по выживанию в цифровой среде

11 рисков при работе с big data

Может ли Facebook помешать получить кредит?

Видео по теме:


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно