Большие данные управляют людьми? Колонка основателя «Школы Данных»

Колонки 11 апреля 2017

Сергей Марин

Директор и основатель «Школы Данных», основатель «Студии данных»

Светлана Зыкова

Директор и основатель Школы Данных Сергей Марин рассказывает, могли ли алгоритмы действительно привести Дональда Трампа к победе и почему в наши дни такому сценарию уже не нужно удивляться.

Подписаться на RB.RU в Telegram

В современном мире люди явным или неявным образом оставляют о себе все больше информации. До недавнего времени эта информация использовалась преимущественно в маркетинге. Именно в этой области сосредоточено основное количество кейсов использования больших данных. Но есть и необычные примеры, которые показывают, что анализ больших данных — это не просто допродажа определенного товара определенной целевой аудитории, но элемент управления людьми.

Например, все уже слышали об успехе компании Cambridge Analytica в предвыборной гонке Трампа и небезызвестного Brexit – интернет пестрит материалами по теме (Rusbase тоже об этом писал). Статья про Cambridge Analytica на The Insider, о которой я расскажу, собрала множество поклонников.

Да, в статье показаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако их можно достичь, только если соблюдать определенные нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать.

Первый нюанс — это доступ к данным

Для того, чтобы делать какие-либо выводы о людях, нужны данные о них, причем очень много данных. Где же их взять? В статье говорится, что данные были получены одним из трех способов: покупкой, сторонними приложениями либо через API (программный интерфейс к социальной сети).

«Со своими однокурсниками он придумал и запустил приложение для Facebook под названием MyPersonality. Пользователю предлагалось ответить на огромный список вопросов ("Легко ли вас вывести из себя в состоянии стресса? Есть ли у вас склонность критиковать окружающих?"), получив затем свой "профиль личности", а создатели приложения получали бесценные личные данные. Вместо ожидавшихся данных по дюжине однокурсников создатели получили информацию по сотням, тысячам, а затем и миллионам людей».

Про API сразу стоит сказать, что это довольно ограниченный инструмент (социальные сети не дают открытого неограниченного доступа к своим данным по понятным причинам) — поэтому для обработки большого количества данных такой вариант не подойдет: как правило, спустя определнное количество запросов к API всплывает CAPTCHA. Есть способы «выкачивания» данных из соцсетей путем параллельного использования нескольких компьютеров с разными IP-адресами, но и они обладают существенными ограничениями.

Существуют, правда, комании, которые годами понемногу выкачивают данные соцсетей, как бы дублируя их базу у себя. У таких комапний много данных. Но здесь мы уже переходим к аспекту покупки данных, который описан далее.

Вариант со сторонними приложениями — на наш взгляд, очень узкий. Сперва нужно «заманить» в это приложение всех пользователей. По заверениям авторов статьи, у них база на более 200 млн человек — вряд ли 200 млн людей ставили специальное приложение и проходили опросы. К тому же методика добычи опросов из социальных данных — это целое искусство, довольно сложно получить правильные ответы, потому что сама методика определяется интерфейсом, постановкой вопроса, восприятием и многими другими вещами.

Вариант с покупкой данных выглядит самым вероятным, но не факт, что исчерпывающим. Хотя рынок данных на Западе и является более продвинутым и прозрачным, тем не менее и у него есть ограничения. Если бы эта компания имела связи с крупнейшей социальной сетью — тогда и в API нет необходимости, и покупать ничего не нужно. Но вопрос A/B-тестирования сохраняется: нужно сделать огромное количество показов, чтобы научиться различать предпочтения людей на уровне детализации, описанном в статье. Вспоминая рынок Programmatic — даже таргетинги по достаточно базовым интересам или принадлежности к группам пока далеко не всегда достижимы.

Второй нюанс — алгоритмы

Вот тут авторы, несомненно, говорят правду: и вычислительные мощности, и математика сегодня находятся на высочайшем уровне и позволяют строить довольно качественные алгоритмы. Кто хочет удостовериться лично — просто посмотрите статьи с типичных конференций по машинному обчению: вы поймете, что все возможно, причем за довольно короткий срок.

«Далее Козинский с командой изучают действия испытуемого: лайки и репосты в Facebook, а также его пол, возраст и место жительства. Так исследователи получают связи. Из простого анализа данных в сети могут получиться необычные выводы. Например, если мужчина подписан на страничку бренда косметики MAC, он с высокой вероятностью является геем. Наоборот, сильный показатель гетеросексуальности — если человек поставил лайк хип-хоп группе Wu-Tang Clan из Нью-Йорка. Поклонник Леди Гаги с высокой долей вероятности экстраверт, а человек, ставящий «нравится» философским постам — интроверт»

В основном изучаются алгоритмы машинного обучения с учителем, которые формируют обучающую выборку из тематических групп социальных сетей. Например, для того, чтобы сформировать пул людей, активно поддерживающих Трампа, можно найти в Facebook соответствующую группу и внимательно ее проанализировать, отобрав типичных людей. Аналогично можно найти людей, поддерживающих Хиллари Клинтон. Итого у нас получится 2 набора людей, которых нам нужно различать.

Дальше — дело техники. Для этих людей с помощью API выгружается большое количество признаков (можете только взглянуть, сколько всего там есть, например, для Facebook или для ВКонтакте).

Далее с помощью нехитрых методов машинного обучения, например, логистической регрессии, строится классификатор, который умеет разделять эти обьекты. После этого уже дело за малым — готовым классификатором «пройтись» по социальной сети (на самом деле достаточно по релевантным группам) и отобрать целевую аудиторию, с которой уже можно работать посредством, например, таргеттированной рекламы.

Есть также и эвристические алгоритмы.

Например, одно время во ВКонтакте нельзя было посмотреть людей с большим числом подписчиков (совсем давно это можно было сделать, перейдя на вкладку люди, потом эту возможность на какое-то время убрали). В этом случае можно применить эвристические идеи, основанные на известной идее предпочтительного присоединения из теории веб-графов. Например, описанный здесь способ. Примечательно, метод практически не использует API социальной сети (поэтому и не упирается в ее ограничения), не строится никаких графов, тем не менее — как видно, алгоритм работает довольно качественно. Существует также набор алгоритмов и методов для анализа текстовой информации из социальных сетей с применением идеи тематического моделирования, рекурентных нейронных сетей и многое другое. Примером этой аналитики является сервис BrandWatch.

Третий нюанс – охват аудитории

Одна из острых проблем в цифровой рекламе — где ее показывать, чтобы захватить необходимую целевую аудиторию. В экосистеме RTB это так называемые паблишеры (publishers) — ресурсы, которые на которых собственно располагаются баннеры таргетированной рекламы. В данном случае проблем у коллег не было — они использовали рекламу в социальной сети.

«Маркетинговый успех Cambridge Analytica основан на трех китах. Это психологический поведенческий анализ, основанный на "модели океана", изучение Big Data и таргетированная реклама»

Другими словами, чтобы получить результаты, описанные в статье, нужно решить основную проблему — с получением данных. Применение же алгоритмов здесь скорее ремесло, чем ноу-хау. Но это ремесло очень важно использовать правильно. Что значит, например, уметь отвечать на следующие вопросы:

Какого качества алгоритма достаточно, чтобы решение было окупаемым?
Как правильно выбрать целевую группу и обучающую выборку для обучения алгоритма?
Как часто надо переобучать модель?
Как поставить рассчет модели «на поток», за какими метриками нужно следить?

Все вышеперечисленное фактически отличает знание алгоритмов машинного обучения и эффективного применения их к конктертной задаче, что всегда предполагает некий путь. И если сотрудники Cambridge Analytica действительно проделали все то, о чем написано в статье, то их наработки фактически означают большой прорыв в социологии и групповой психологии.

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».

Материалы по теме:

ТЕГИ

Большие данные
Колонки
Большие данные
Колонки

Истории

Материалы по теме

Пройти курс «Самое важное o 115-ФЗ»
1 Большие данные и ИИ стали драйвером роста российской экономики По прогнозам, к 2030 году вклад ИИ и big data в ВВП страны достигнет 10,6 трлн рублей 18 апреля 14:00
2 Как вывести работу с данными на новый уровень: кейс по комплексному анализу данных с помощью RnD Рассказываем об уникальной методологии анализа данных 20 марта 19:52
3 Машинное обучение и большие данные: как они связаны? Прежде чем данные смогут «обучить» алгоритмы машинного обучения, они проходят этапы 19 марта 06:30
4 Топ-7 идей Data Science проектов — пет-проекты и примеры анализа данных Полезные проекты на каждый день 03 марта 18:55

Большие данные управляют людьми? Колонка основателя «Школы Данных»

Первый нюанс — это доступ к данным

Второй нюанс — алгоритмы

Третий нюанс – охват аудитории

Дональд Трамп vs Технологии: кто кого?

Конгресс США разрешил провайдерам продавать личные данные пользователей

«Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

Как FinTech использует большие данные — хрестоматийные примеры

Популярное

Налог на прибыль организаций

Большинство ритейлеров заявили о намерении увеличить бизнес без расширения штата

Торговая марка для компании: как проверить и зарегистрировать

Как законно уволиться без отработки?

Ошибка 502 Bad Gateway: причины и способы устранения

Материалы по теме