Как большие данные вторгаются в частную жизнь
Big data в масштабах государства. Часть 2Андрей Черногоров, генеральный директор компании Cognitive Technologies, продолжает говорить о больших данных в масштабе государства. Сегодня – об этике big data, с кейсами, когда этические нормы были нарушены.
Первая часть статьи «Большие данные в масштабах государства» доступна тут.
Разумеется, чем больше информации собирается о людях, тем жестче должна быть ее защита.
Считается, что большие данные нечувствительны к конфиденциальности человека, они не «персональные». Этот тезис верен, но лишь отчасти.
По теме: Твиттер знает, сколько вы зарабатываетеСама по себе условная единица больших данных действительно обезличена – она слишком мала, чтобы на основе изучения этого отдельно взятого «зернышка» получить конфиденциальные данные о человеке, от которого оно поступило в общую корзину. Другой вопрос, что проводить наглядные исследования по этим мельчайшим частицам можно достаточно легко с методологической точки зрения. Любая, казалось бы, незначительная информация о человеке может рассказать о нем практически все, если с тысячи других людей считать такую же мелкую деталь и на основе полученных данных получить и сопоставить результаты. Таким образом, вклад, который мы вносим в те или иные большие данные (даже если мы не осознаем момент передачи этих данных внешним устройствам или третьим лицам), обезличен и лишен какой бы то ни было пользы. Но ровно до тех пор, пока эта информация не встроилась в огромный портрет, сложенный из других таких же мельчайших деталей. Это как мелочь в нашем кошельке.
Несколько копеек могут не иметь ценности и реальной покупательной способности, но сложи мелочь из кошельков жителей одного города – и получишь сумму в несколько миллиардов.
Исследуя большие данные, нельзя обойти этические аспекты их сбора и обработки. Где проходит грань между неперсонализированными и конфиденциальными данными пользователей? С одной стороны, существуют кейсы, когда большие данные несут исключительно пользу и никак не нарушают прав человека на частную жизнь. Например, исследовательский проект в Кентуккийском университете использовал в качестве источника данных активность своих студентов в социальных сетях. Алгоритмы, внедренные в университет в виде специального ИТ-продукта, анализировали аккаунты студентов в соцсетях, их открытую переписку на форумах и блогах, количество «чекинов» в лекториях, время и место из захода в сеть на территории учебного заведения. Чтобы в итоге вычленить из этих данных глобальную карту передвижений людей по периметру здания и в будущем проектировать новые кампусы школ и университетов, библиотеки и учебные центры с точным пониманием того, какие конкретно аудитории (какой формы, размера и доступности) создавать для более плотной коммуникации студентов между собой и преподавателями. Правильная геометрия и инженерия учебных пространств, спроектированная и скорректированная с помощью больших данных, в итоге способна косвенно влиять на качество образования в масштабах целого региона и страны. При этом данные, на которых выстроена эта карта изменений, не имеют прямой привязки к решаемой задаче. Поэтому проанализированный «цифровой след», который студенты оставляли о своем университете в соцсетях и блогах, не раскрывал самого содержания этого контента.
Область сбора информации и область ее конечного применения и корреляции разнесены друг от друга очень далеко – настолько сильно, что теряется персонализированный характер этих данных.
Основателю Массачусетского технологического института Уильяму Роджерсу в свое время потребовалось несколько лет, чтобы воплотить в жизнь давнюю мечту и спроектировать кампусы MIT таким образом, чтобы максимально стимулировать нетворкинг в творческой среде его студентов, подспудно влияя на формирование среди учеников пассионарных команд разработчиков для стартапов с прорывными идеями. Лестницы и общие помещения в здании были спроектированы так, чтобы случайные люди из разных частей кампуса оказывались вместе как можно чаще. Сегодня на проектирование подобного «умного» здания, может потребоваться не более суток – у каждого молодого человека есть смартфон со встроенным GPS-локатором. Эти данные можно запросить через внешний API и затем просто сопоставить тысячи траекторий студентов внутри помещений, чтобы выявить наиболее густонаселенные и привлекательные для нетворкинга территории университета.
По теме: Какие технологии используются в ритейле?С другой стороны, некоторые ситуации с использованием больших данных часто провоцирует общественные скандалы. Например, в 2012 году американская торговая сеть Target использовала алгоритмы анализа поведения посетителей на сайте и сопоставила это поведение с общей историей поисковых запросов в каталоге сайта. Так Target узнала о беременности несовершеннолетней американки раньше, чем ее родители. Компания сопоставила несколько разрозненных сигналов от пользователя (поиск товара типа теста на беременность и одновременное снижение внимания к женским аксессуарам интимной гигиены) и диагностировала, что пользователь перешел в новую для себя категорию «беременных мам». После этого на почту девушки посыпались персонализированные предложения и акции с товарами для детей и средствами для гигиены будущих родителей. Последовавшая негодующая реакция родителей подростка создала серьезный резонанс.
Аналогичные ситуации не раз возникали, когда люди делали серию разрозненных поисковых запросов в сети, пытаясь до обращения к врачу по имеющимся у них симптомам понять, что с ними происходит. А в итоге попадали на работу алгоритма обработки больших данных, который сообщал им о серьезном, часто смертельном заболевании (на основе сопоставления семантики запроса с загруженной в него базой данных медицинских справочников и энциклопедий). Таким образом, даже известные алгоритмы обработки данных вроде медицинской системы IBM Watson (о ней мы уже говорили) могут использоваться некорректно.
Продолжение следует.
-
Россия Запрет рекламы в Telegram: что важно знать маркетологам и бизнесу 23 мая 2026, 09:00
-
Искусственный интеллект Нам не нужен свой OpenAI: где России искать эффект от ИИ и что для этого делать 19 мая 2026, 11:00
-
Бизнес «Команде не вырасти выше лидера»: как изменить неписаные правила взаимодействия в группе 19 мая 2026, 10:00
-
Технологии Подключённые автомобили: как интернет меняет автопром 25 марта 2026, 13:17
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Технологии СДЭК автоматизировал оформление грузов на таможне: сервис компании сам рассчитывает пошлины и формирует договоры 26 мая 2026, 11:00
-
Реклама Ozon запустил партнёрскую программу для авторов: блогеры в MAX и VK смогут зарабатывать на рекомендациях товаров 25 мая 2026, 22:00
-
Технологии В Москве могут построить автономные дата-центры: они будут работать от собственных электростанций 25 мая 2026, 21:30
-
IT Выручка российского ИТ-рынка впервые за несколько лет снизилась — сектор потерял 60 млрд ₽ за 2025 год 25 мая 2026, 19:30
-
Искусственный интеллект VK Tech создал ИИ-сервис для маркетинговых исследований — AI Researcher изучает спрос и формирует портрет аудитории 25 мая 2026, 12:11
-
Реклама 76% медиаресурсов не смогут работать без рекламных доходов — большинство россиян не готовы платить за контент 26 мая 2026, 12:00
-
Искусственный интеллект IT-рынок без «единорогов», дефицит ЦОДов и постоянные разговоры об ИИ: чем запомнился ЦИПР в 2026 году 22 мая 2026, 23:30
-
Технологии «Яндекс» запустил нейробариста в кофейнях Москвы — ИИ будет составлять персональный рецепт под запрос клиента 22 мая 2026, 13:45