Андрей Черногоров

Как большие данные вторгаются в частную жизнь

Андрей Черногоров, генеральный директор компании Cognitive Technologies, продолжает говорить о больших данных в масштабе государства. Сегодня – об этике big data, с кейсами, когда этические нормы были нарушены.


Первая часть статьи «Большие данные в масштабах государства» доступна тут.

Разумеется, чем больше информации собирается о людях, тем жестче должна быть ее защита.

Считается, что большие данные нечувствительны к конфиденциальности человека, они не «персональные». Этот тезис верен, но лишь отчасти.

Сама по себе условная единица больших данных действительно обезличена – она слишком мала, чтобы на основе изучения этого отдельно взятого «зернышка» получить конфиденциальные данные о человеке, от которого оно поступило в общую корзину. Другой вопрос, что проводить наглядные исследования по этим мельчайшим частицам можно достаточно легко с методологической точки зрения. По теме: Твиттер знает, сколько вы зарабатываете

Любая, казалось бы, незначительная информация о человеке может рассказать о нем практически все, если с тысячи других людей считать такую же мелкую деталь и на основе полученных данных получить и сопоставить результаты. Таким образом, вклад, который мы вносим в те или иные большие данные (даже если мы не осознаем момент передачи этих данных внешним устройствам или третьим лицам), обезличен и лишен какой бы то ни было пользы. Но ровно до тех пор, пока эта информация не встроилась в огромный портрет, сложенный из других таких же мельчайших деталей. Это как мелочь в нашем кошельке.

Несколько копеек могут не иметь ценности и реальной покупательной способности, но сложи мелочь из кошельков жителей одного города – и получишь сумму в несколько миллиардов.

Исследуя большие данные, нельзя обойти этические аспекты их сбора и обработки. Где проходит грань между неперсонализированными и конфиденциальными данными пользователей? С одной стороны, существуют кейсы, когда большие данные несут исключительно пользу и никак не нарушают прав человека на частную жизнь.  Например, исследовательский проект в Кентуккийском университете использовал в качестве источника данных активность своих студентов в социальных сетях. Алгоритмы, внедренные в университет в виде специального ИТ-продукта, анализировали аккаунты студентов в соцсетях, их открытую переписку на форумах и блогах, количество «чекинов» в лекториях, время и место из захода в сеть на территории учебного заведения. Чтобы в итоге вычленить из этих данных глобальную карту передвижений людей по периметру здания и в будущем проектировать новые кампусы школ и университетов, библиотеки и учебные центры с точным пониманием того, какие конкретно аудитории (какой формы, размера и доступности) создавать для более плотной коммуникации студентов между собой и преподавателями. Правильная геометрия и инженерия учебных пространств, спроектированная и скорректированная с помощью больших данных, в итоге способна косвенно влиять на качество образования в масштабах целого региона и страны. При этом данные, на которых выстроена эта карта изменений, не имеют прямой привязки к решаемой задаче. Поэтому проанализированный «цифровой след», который студенты оставляли о своем университете в соцсетях и блогах, не раскрывал самого содержания этого контента.

Область сбора информации и область ее конечного применения и корреляции  разнесены друг от друга очень далеко – настолько сильно, что теряется персонализированный характер этих данных.

Основателю Массачусетского технологического института Уильяму Роджерсу в свое время потребовалось несколько лет, чтобы воплотить в жизнь давнюю мечту и спроектировать кампусы MIT таким образом, чтобы максимально стимулировать нетворкинг в творческой среде его студентов, подспудно влияя на формирование среди учеников пассионарных команд разработчиков для стартапов с прорывными идеями. Лестницы и общие помещения в здании были спроектированы так, чтобы случайные люди из разных частей кампуса оказывались вместе как можно чаще. Сегодня на проектирование подобного «умного» здания, может потребоваться не более суток – у каждого молодого человека есть смартфон со встроенным GPS-локатором. Эти данные можно запросить через внешний API и затем просто сопоставить тысячи траекторий студентов внутри помещений, чтобы выявить наиболее густонаселенные и привлекательные для нетворкинга территории университета.

С другой стороны, некоторые ситуации с использованием больших данных часто провоцирует общественные скандалы. Например, в 2012 году американская торговая сеть Target использовала алгоритмы анализа По теме: Какие технологии используются в ритейле?

поведения посетителей на сайте и сопоставила это поведение с общей историей поисковых запросов в каталоге сайта. Так Target узнала о беременности несовершеннолетней американки раньше, чем ее родители. Компания сопоставила несколько разрозненных сигналов от пользователя (поиск товара типа теста на беременность и одновременное снижение внимания к женским аксессуарам интимной гигиены) и диагностировала, что пользователь перешел в новую для себя категорию «беременных мам». После этого на почту девушки посыпались персонализированные предложения и акции с товарами для детей и средствами для гигиены будущих родителей. Последовавшая негодующая реакция родителей подростка создала серьезный резонанс.

Аналогичные ситуации не раз возникали, когда люди делали серию разрозненных поисковых запросов в сети, пытаясь до обращения к врачу по имеющимся у них симптомам понять, что с ними происходит. А в итоге попадали на работу алгоритма обработки больших данных, который сообщал им о серьезном, часто смертельном заболевании (на основе сопоставления семантики запроса с загруженной в него базой данных медицинских справочников и энциклопедий). Таким образом, даже известные алгоритмы обработки данных вроде медицинской системы IBM Watson (о ней мы уже говорили) могут использоваться некорректно.

Продолжение следует.


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно