Мнения / Маркетинг

Как большие данные вторгаются в частную жизнь

Big data в масштабах государства. Часть 2

08 декабря 2015, 15:00

4 минуты

Маркетинг

Технологии

Автор:

Андрей Черногоров

Андрей Черногоров, генеральный директор компании Cognitive Technologies, продолжает говорить о больших данных в масштабе государства. Сегодня – об этике big data, с кейсами, когда этические нормы были нарушены.

Первая часть статьи «Большие данные в масштабах государства» доступна тут.

Разумеется, чем больше информации собирается о людях, тем жестче должна быть ее защита.

Считается, что большие данные нечувствительны к конфиденциальности человека, они не «персональные». Этот тезис верен, но лишь отчасти.

По теме: Твиттер знает, сколько вы зарабатываетеСама по себе условная единица больших данных действительно обезличена – она слишком мала, чтобы на основе изучения этого отдельно взятого «зернышка» получить конфиденциальные данные о человеке, от которого оно поступило в общую корзину. Другой вопрос, что проводить наглядные исследования по этим мельчайшим частицам можно достаточно легко с методологической точки зрения. Любая, казалось бы, незначительная информация о человеке может рассказать о нем практически все, если с тысячи других людей считать такую же мелкую деталь и на основе полученных данных получить и сопоставить результаты. Таким образом, вклад, который мы вносим в те или иные большие данные (даже если мы не осознаем момент передачи этих данных внешним устройствам или третьим лицам), обезличен и лишен какой бы то ни было пользы. Но ровно до тех пор, пока эта информация не встроилась в огромный портрет, сложенный из других таких же мельчайших деталей. Это как мелочь в нашем кошельке.

Несколько копеек могут не иметь ценности и реальной покупательной способности, но сложи мелочь из кошельков жителей одного города – и получишь сумму в несколько миллиардов.

Исследуя большие данные, нельзя обойти этические аспекты их сбора и обработки. Где проходит грань между неперсонализированными и конфиденциальными данными пользователей? С одной стороны, существуют кейсы, когда большие данные несут исключительно пользу и никак не нарушают прав человека на частную жизнь. Например, исследовательский проект в Кентуккийском университете использовал в качестве источника данных активность своих студентов в социальных сетях. Алгоритмы, внедренные в университет в виде специального ИТ-продукта, анализировали аккаунты студентов в соцсетях, их открытую переписку на форумах и блогах, количество «чекинов» в лекториях, время и место из захода в сеть на территории учебного заведения. Чтобы в итоге вычленить из этих данных глобальную карту передвижений людей по периметру здания и в будущем проектировать новые кампусы школ и университетов, библиотеки и учебные центры с точным пониманием того, какие конкретно аудитории (какой формы, размера и доступности) создавать для более плотной коммуникации студентов между собой и преподавателями. Правильная геометрия и инженерия учебных пространств, спроектированная и скорректированная с помощью больших данных, в итоге способна косвенно влиять на качество образования в масштабах целого региона и страны. При этом данные, на которых выстроена эта карта изменений, не имеют прямой привязки к решаемой задаче. Поэтому проанализированный «цифровой след», который студенты оставляли о своем университете в соцсетях и блогах, не раскрывал самого содержания этого контента.

Область сбора информации и область ее конечного применения и корреляции разнесены друг от друга очень далеко – настолько сильно, что теряется персонализированный характер этих данных.

Основателю Массачусетского технологического института Уильяму Роджерсу в свое время потребовалось несколько лет, чтобы воплотить в жизнь давнюю мечту и спроектировать кампусы MIT таким образом, чтобы максимально стимулировать нетворкинг в творческой среде его студентов, подспудно влияя на формирование среди учеников пассионарных команд разработчиков для стартапов с прорывными идеями. Лестницы и общие помещения в здании были спроектированы так, чтобы случайные люди из разных частей кампуса оказывались вместе как можно чаще. Сегодня на проектирование подобного «умного» здания, может потребоваться не более суток – у каждого молодого человека есть смартфон со встроенным GPS-локатором. Эти данные можно запросить через внешний API и затем просто сопоставить тысячи траекторий студентов внутри помещений, чтобы выявить наиболее густонаселенные и привлекательные для нетворкинга территории университета.

По теме: Какие технологии используются в ритейле?С другой стороны, некоторые ситуации с использованием больших данных часто провоцирует общественные скандалы. Например, в 2012 году американская торговая сеть Target использовала алгоритмы анализа поведения посетителей на сайте и сопоставила это поведение с общей историей поисковых запросов в каталоге сайта. Так Target узнала о беременности несовершеннолетней американки раньше, чем ее родители. Компания сопоставила несколько разрозненных сигналов от пользователя (поиск товара типа теста на беременность и одновременное снижение внимания к женским аксессуарам интимной гигиены) и диагностировала, что пользователь перешел в новую для себя категорию «беременных мам». После этого на почту девушки посыпались персонализированные предложения и акции с товарами для детей и средствами для гигиены будущих родителей. Последовавшая негодующая реакция родителей подростка создала серьезный резонанс.

Аналогичные ситуации не раз возникали, когда люди делали серию разрозненных поисковых запросов в сети, пытаясь до обращения к врачу по имеющимся у них симптомам понять, что с ними происходит. А в итоге попадали на работу алгоритма обработки больших данных, который сообщал им о серьезном, часто смертельном заболевании (на основе сопоставления семантики запроса с загруженной в него базой данных медицинских справочников и энциклопедий). Таким образом, даже известные алгоритмы обработки данных вроде медицинской системы IBM Watson (о ней мы уже говорили) могут использоваться некорректно.

Продолжение следует.

Подписаться на телеграм-канал