Андрей Черногоров, генеральный директор компании Cognitive Technologies, продолжает говорить о больших данных в масштабе государства. Сегодня – об этике big data, с кейсами, когда этические нормы были нарушены.
Первая часть статьи «Большие данные в масштабах государства» доступна тут.
Разумеется, чем больше информации собирается о людях, тем жестче должна быть ее защита.
Считается, что большие данные нечувствительны к конфиденциальности человека, они не «персональные». Этот тезис верен, но лишь отчасти.
По теме: Твиттер знает, сколько вы зарабатываетеСама по себе условная единица больших данных действительно обезличена – она слишком мала, чтобы на основе изучения этого отдельно взятого «зернышка» получить конфиденциальные данные о человеке, от которого оно поступило в общую корзину. Другой вопрос, что проводить наглядные исследования по этим мельчайшим частицам можно достаточно легко с методологической точки зрения. Любая, казалось бы, незначительная информация о человеке может рассказать о нем практически все, если с тысячи других людей считать такую же мелкую деталь и на основе полученных данных получить и сопоставить результаты. Таким образом, вклад, который мы вносим в те или иные большие данные (даже если мы не осознаем момент передачи этих данных внешним устройствам или третьим лицам), обезличен и лишен какой бы то ни было пользы. Но ровно до тех пор, пока эта информация не встроилась в огромный портрет, сложенный из других таких же мельчайших деталей. Это как мелочь в нашем кошельке.
Несколько копеек могут не иметь ценности и реальной покупательной способности, но сложи мелочь из кошельков жителей одного города – и получишь сумму в несколько миллиардов.
Исследуя большие данные, нельзя обойти этические аспекты их сбора и обработки. Где проходит грань между неперсонализированными и конфиденциальными данными пользователей? С одной стороны, существуют кейсы, когда большие данные несут исключительно пользу и никак не нарушают прав человека на частную жизнь. Например, исследовательский проект в Кентуккийском университете использовал в качестве источника данных активность своих студентов в социальных сетях. Алгоритмы, внедренные в университет в виде специального ИТ-продукта, анализировали аккаунты студентов в соцсетях, их открытую переписку на форумах и блогах, количество «чекинов» в лекториях, время и место из захода в сеть на территории учебного заведения. Чтобы в итоге вычленить из этих данных глобальную карту передвижений людей по периметру здания и в будущем проектировать новые кампусы школ и университетов, библиотеки и учебные центры с точным пониманием того, какие конкретно аудитории (какой формы, размера и доступности) создавать для более плотной коммуникации студентов между собой и преподавателями. Правильная геометрия и инженерия учебных пространств, спроектированная и скорректированная с помощью больших данных, в итоге способна косвенно влиять на качество образования в масштабах целого региона и страны. При этом данные, на которых выстроена эта карта изменений, не имеют прямой привязки к решаемой задаче. Поэтому проанализированный «цифровой след», который студенты оставляли о своем университете в соцсетях и блогах, не раскрывал самого содержания этого контента.
Область сбора информации и область ее конечного применения и корреляции разнесены друг от друга очень далеко – настолько сильно, что теряется персонализированный характер этих данных.
Основателю Массачусетского технологического института Уильяму Роджерсу в свое время потребовалось несколько лет, чтобы воплотить в жизнь давнюю мечту и спроектировать кампусы MIT таким образом, чтобы максимально стимулировать нетворкинг в творческой среде его студентов, подспудно влияя на формирование среди учеников пассионарных команд разработчиков для стартапов с прорывными идеями. Лестницы и общие помещения в здании были спроектированы так, чтобы случайные люди из разных частей кампуса оказывались вместе как можно чаще. Сегодня на проектирование подобного «умного» здания, может потребоваться не более суток – у каждого молодого человека есть смартфон со встроенным GPS-локатором. Эти данные можно запросить через внешний API и затем просто сопоставить тысячи траекторий студентов внутри помещений, чтобы выявить наиболее густонаселенные и привлекательные для нетворкинга территории университета.
По теме: Какие технологии используются в ритейле?С другой стороны, некоторые ситуации с использованием больших данных часто провоцирует общественные скандалы. Например, в 2012 году американская торговая сеть Target использовала алгоритмы анализа поведения посетителей на сайте и сопоставила это поведение с общей историей поисковых запросов в каталоге сайта. Так Target узнала о беременности несовершеннолетней американки раньше, чем ее родители. Компания сопоставила несколько разрозненных сигналов от пользователя (поиск товара типа теста на беременность и одновременное снижение внимания к женским аксессуарам интимной гигиены) и диагностировала, что пользователь перешел в новую для себя категорию «беременных мам». После этого на почту девушки посыпались персонализированные предложения и акции с товарами для детей и средствами для гигиены будущих родителей. Последовавшая негодующая реакция родителей подростка создала серьезный резонанс.
Аналогичные ситуации не раз возникали, когда люди делали серию разрозненных поисковых запросов в сети, пытаясь до обращения к врачу по имеющимся у них симптомам понять, что с ними происходит. А в итоге попадали на работу алгоритма обработки больших данных, который сообщал им о серьезном, часто смертельном заболевании (на основе сопоставления семантики запроса с загруженной в него базой данных медицинских справочников и энциклопедий). Таким образом, даже известные алгоритмы обработки данных вроде медицинской системы IBM Watson (о ней мы уже говорили) могут использоваться некорректно.
Продолжение следует.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Генерируем идеи для бизнеса: курс-практикум»
- 1 Meta* и IBM организовали альянс для создания общей модели ИИ
- 2 IBM откажется от рекламы в X
- 3 Сотрудник IBM, уже 15 лет находящийся на больничном, через суд потребовал повышения зарплаты
- 4 CEO IBM объявил о приостановке набора сотрудников, которых сможет заменить ИИ