Как большие данные вторгаются в частную жизнь
Big data в масштабах государства. Часть 2Андрей Черногоров, генеральный директор компании Cognitive Technologies, продолжает говорить о больших данных в масштабе государства. Сегодня – об этике big data, с кейсами, когда этические нормы были нарушены.
Первая часть статьи «Большие данные в масштабах государства» доступна тут.
Разумеется, чем больше информации собирается о людях, тем жестче должна быть ее защита.
Считается, что большие данные нечувствительны к конфиденциальности человека, они не «персональные». Этот тезис верен, но лишь отчасти.
По теме: Твиттер знает, сколько вы зарабатываетеСама по себе условная единица больших данных действительно обезличена – она слишком мала, чтобы на основе изучения этого отдельно взятого «зернышка» получить конфиденциальные данные о человеке, от которого оно поступило в общую корзину. Другой вопрос, что проводить наглядные исследования по этим мельчайшим частицам можно достаточно легко с методологической точки зрения. Любая, казалось бы, незначительная информация о человеке может рассказать о нем практически все, если с тысячи других людей считать такую же мелкую деталь и на основе полученных данных получить и сопоставить результаты. Таким образом, вклад, который мы вносим в те или иные большие данные (даже если мы не осознаем момент передачи этих данных внешним устройствам или третьим лицам), обезличен и лишен какой бы то ни было пользы. Но ровно до тех пор, пока эта информация не встроилась в огромный портрет, сложенный из других таких же мельчайших деталей. Это как мелочь в нашем кошельке.
Несколько копеек могут не иметь ценности и реальной покупательной способности, но сложи мелочь из кошельков жителей одного города – и получишь сумму в несколько миллиардов.
Исследуя большие данные, нельзя обойти этические аспекты их сбора и обработки. Где проходит грань между неперсонализированными и конфиденциальными данными пользователей? С одной стороны, существуют кейсы, когда большие данные несут исключительно пользу и никак не нарушают прав человека на частную жизнь. Например, исследовательский проект в Кентуккийском университете использовал в качестве источника данных активность своих студентов в социальных сетях. Алгоритмы, внедренные в университет в виде специального ИТ-продукта, анализировали аккаунты студентов в соцсетях, их открытую переписку на форумах и блогах, количество «чекинов» в лекториях, время и место из захода в сеть на территории учебного заведения. Чтобы в итоге вычленить из этих данных глобальную карту передвижений людей по периметру здания и в будущем проектировать новые кампусы школ и университетов, библиотеки и учебные центры с точным пониманием того, какие конкретно аудитории (какой формы, размера и доступности) создавать для более плотной коммуникации студентов между собой и преподавателями. Правильная геометрия и инженерия учебных пространств, спроектированная и скорректированная с помощью больших данных, в итоге способна косвенно влиять на качество образования в масштабах целого региона и страны. При этом данные, на которых выстроена эта карта изменений, не имеют прямой привязки к решаемой задаче. Поэтому проанализированный «цифровой след», который студенты оставляли о своем университете в соцсетях и блогах, не раскрывал самого содержания этого контента.
Область сбора информации и область ее конечного применения и корреляции разнесены друг от друга очень далеко – настолько сильно, что теряется персонализированный характер этих данных.
Основателю Массачусетского технологического института Уильяму Роджерсу в свое время потребовалось несколько лет, чтобы воплотить в жизнь давнюю мечту и спроектировать кампусы MIT таким образом, чтобы максимально стимулировать нетворкинг в творческой среде его студентов, подспудно влияя на формирование среди учеников пассионарных команд разработчиков для стартапов с прорывными идеями. Лестницы и общие помещения в здании были спроектированы так, чтобы случайные люди из разных частей кампуса оказывались вместе как можно чаще. Сегодня на проектирование подобного «умного» здания, может потребоваться не более суток – у каждого молодого человека есть смартфон со встроенным GPS-локатором. Эти данные можно запросить через внешний API и затем просто сопоставить тысячи траекторий студентов внутри помещений, чтобы выявить наиболее густонаселенные и привлекательные для нетворкинга территории университета.
По теме: Какие технологии используются в ритейле?С другой стороны, некоторые ситуации с использованием больших данных часто провоцирует общественные скандалы. Например, в 2012 году американская торговая сеть Target использовала алгоритмы анализа поведения посетителей на сайте и сопоставила это поведение с общей историей поисковых запросов в каталоге сайта. Так Target узнала о беременности несовершеннолетней американки раньше, чем ее родители. Компания сопоставила несколько разрозненных сигналов от пользователя (поиск товара типа теста на беременность и одновременное снижение внимания к женским аксессуарам интимной гигиены) и диагностировала, что пользователь перешел в новую для себя категорию «беременных мам». После этого на почту девушки посыпались персонализированные предложения и акции с товарами для детей и средствами для гигиены будущих родителей. Последовавшая негодующая реакция родителей подростка создала серьезный резонанс.
Аналогичные ситуации не раз возникали, когда люди делали серию разрозненных поисковых запросов в сети, пытаясь до обращения к врачу по имеющимся у них симптомам понять, что с ними происходит. А в итоге попадали на работу алгоритма обработки больших данных, который сообщал им о серьезном, часто смертельном заболевании (на основе сопоставления семантики запроса с загруженной в него базой данных медицинских справочников и энциклопедий). Таким образом, даже известные алгоритмы обработки данных вроде медицинской системы IBM Watson (о ней мы уже говорили) могут использоваться некорректно.
Продолжение следует.
-
Технологии Подключённые автомобили: как интернет меняет автопром 25 марта 2026, 13:17
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Маркетинг Как брендам достучаться до зумеров: почему старые инструменты больше не работают и что делать 12 апреля 2026, 22:11
-
Тренды Будущее под камерами: шесть сценариев, как видеонаблюдение перепишет реальность к 2036 году 19 января 2026, 10:57
-
Деньги Персональные данные и цифровой след: кто и как на них зарабатывает 27 марта 2026, 10:11
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
IT Мессенджер imo в России в 2026 году: где скачать, как установить и начать пользоваться 09 апреля 2026, 19:38
-
Искусственный интеллект В Яндекс Почту добавили чат с ИИ-ассистентом — Алиса Про может анализировать содержимое писем и редактировать их 14 апреля 2026, 15:00
-
Искусственный интеллект МТС запустил ИИ-сотрудников для бизнеса: нейросеть назначает собеседования и общается с кандидатами вместо HR 14 апреля 2026, 14:15
-
Реклама Яндекс внедрил ИИ-систему рекомендаций ARGUS в рекламу — теперь нейросети анализируют поведение пользователя за год 14 апреля 2026, 13:20
-
Искусственный интеллект Компании в России в среднем вкладывают в ИИ-агентов 10-50 млн ₽: окупаемость инвестиций — от года до семи лет 13 апреля 2026, 19:26
-
Россия Подписные издания к 2030 году — не только в Москве и Петербурге: сеть откроет 6 книжных магазинов по всей России 13 апреля 2026, 17:30
-
Россия В работе «Ростелекома» произошёл масштабный сбой из-за DDoS-атаки — пользователи жалуются на проблемы с интернетом 06 апреля 2026, 23:59
-
Бизнес В Москве проходит форум о целевых капиталах: бизнес обсуждает финансовую устойчивость НКО и их будущее 03 апреля 2026, 14:17