Директор и основатель Школы Данных Сергей Марин рассказывает, могли ли алгоритмы действительно привести Дональда Трампа к победе и почему в наши дни такому сценарию уже не нужно удивляться.
В современном мире люди явным или неявным образом оставляют о себе все больше информации. До недавнего времени эта информация использовалась преимущественно в маркетинге. Именно в этой области сосредоточено основное количество кейсов использования больших данных. Но есть и необычные примеры, которые показывают, что анализ больших данных — это не просто допродажа определенного товара определенной целевой аудитории, но элемент управления людьми.
Например, все уже слышали об успехе компании Cambridge Analytica в предвыборной гонке Трампа и небезызвестного Brexit – интернет пестрит материалами по теме (Rusbase тоже об этом писал). Статья про Cambridge Analytica на The Insider, о которой я расскажу, собрала множество поклонников.
Да, в статье показаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако их можно достичь, только если соблюдать определенные нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать.
Первый нюанс — это доступ к данным
Для того, чтобы делать какие-либо выводы о людях, нужны данные о них, причем очень много данных. Где же их взять? В статье говорится, что данные были получены одним из трех способов: покупкой, сторонними приложениями либо через API (программный интерфейс к социальной сети).
«Со своими однокурсниками он придумал и запустил приложение для Facebook под названием MyPersonality. Пользователю предлагалось ответить на огромный список вопросов ("Легко ли вас вывести из себя в состоянии стресса? Есть ли у вас склонность критиковать окружающих?"), получив затем свой "профиль личности", а создатели приложения получали бесценные личные данные. Вместо ожидавшихся данных по дюжине однокурсников создатели получили информацию по сотням, тысячам, а затем и миллионам людей».
Про API сразу стоит сказать, что это довольно ограниченный инструмент (социальные сети не дают открытого неограниченного доступа к своим данным по понятным причинам) — поэтому для обработки большого количества данных такой вариант не подойдет: как правило, спустя определнное количество запросов к API всплывает CAPTCHA. Есть способы «выкачивания» данных из соцсетей путем параллельного использования нескольких компьютеров с разными IP-адресами, но и они обладают существенными ограничениями.
Существуют, правда, комании, которые годами понемногу выкачивают данные соцсетей, как бы дублируя их базу у себя. У таких комапний много данных. Но здесь мы уже переходим к аспекту покупки данных, который описан далее.
Вариант со сторонними приложениями — на наш взгляд, очень узкий. Сперва нужно «заманить» в это приложение всех пользователей. По заверениям авторов статьи, у них база на более 200 млн человек — вряд ли 200 млн людей ставили специальное приложение и проходили опросы. К тому же методика добычи опросов из социальных данных — это целое искусство, довольно сложно получить правильные ответы, потому что сама методика определяется интерфейсом, постановкой вопроса, восприятием и многими другими вещами.
Вариант с покупкой данных выглядит самым вероятным, но не факт, что исчерпывающим. Хотя рынок данных на Западе и является более продвинутым и прозрачным, тем не менее и у него есть ограничения. Если бы эта компания имела связи с крупнейшей социальной сетью — тогда и в API нет необходимости, и покупать ничего не нужно. Но вопрос A/B-тестирования сохраняется: нужно сделать огромное количество показов, чтобы научиться различать предпочтения людей на уровне детализации, описанном в статье. Вспоминая рынок Programmatic — даже таргетинги по достаточно базовым интересам или принадлежности к группам пока далеко не всегда достижимы.
Второй нюанс — алгоритмы
Вот тут авторы, несомненно, говорят правду: и вычислительные мощности, и математика сегодня находятся на высочайшем уровне и позволяют строить довольно качественные алгоритмы. Кто хочет удостовериться лично — просто посмотрите статьи с типичных конференций по машинному обчению: вы поймете, что все возможно, причем за довольно короткий срок.
«Далее Козинский с командой изучают действия испытуемого: лайки и репосты в Facebook, а также его пол, возраст и место жительства. Так исследователи получают связи. Из простого анализа данных в сети могут получиться необычные выводы. Например, если мужчина подписан на страничку бренда косметики MAC, он с высокой вероятностью является геем. Наоборот, сильный показатель гетеросексуальности — если человек поставил лайк хип-хоп группе Wu-Tang Clan из Нью-Йорка. Поклонник Леди Гаги с высокой долей вероятности экстраверт, а человек, ставящий «нравится» философским постам — интроверт»
В основном изучаются алгоритмы машинного обучения с учителем, которые формируют обучающую выборку из тематических групп социальных сетей. Например, для того, чтобы сформировать пул людей, активно поддерживающих Трампа, можно найти в Facebook соответствующую группу и внимательно ее проанализировать, отобрав типичных людей. Аналогично можно найти людей, поддерживающих Хиллари Клинтон. Итого у нас получится 2 набора людей, которых нам нужно различать.
Дальше — дело техники. Для этих людей с помощью API выгружается большое количество признаков (можете только взглянуть, сколько всего там есть, например, для Facebook или для ВКонтакте).
Далее с помощью нехитрых методов машинного обучения, например, логистической регрессии, строится классификатор, который умеет разделять эти обьекты. После этого уже дело за малым — готовым классификатором «пройтись» по социальной сети (на самом деле достаточно по релевантным группам) и отобрать целевую аудиторию, с которой уже можно работать посредством, например, таргеттированной рекламы.
Есть также и эвристические алгоритмы.
Например, одно время во ВКонтакте нельзя было посмотреть людей с большим числом подписчиков (совсем давно это можно было сделать, перейдя на вкладку люди, потом эту возможность на какое-то время убрали). В этом случае можно применить эвристические идеи, основанные на известной идее предпочтительного присоединения из теории веб-графов. Например, описанный здесь способ. Примечательно, метод практически не использует API социальной сети (поэтому и не упирается в ее ограничения), не строится никаких графов, тем не менее — как видно, алгоритм работает довольно качественно. Существует также набор алгоритмов и методов для анализа текстовой информации из социальных сетей с применением идеи тематического моделирования, рекурентных нейронных сетей и многое другое. Примером этой аналитики является сервис BrandWatch.
Третий нюанс – охват аудитории
Одна из острых проблем в цифровой рекламе — где ее показывать, чтобы захватить необходимую целевую аудиторию. В экосистеме RTB это так называемые паблишеры (publishers) — ресурсы, которые на которых собственно располагаются баннеры таргетированной рекламы. В данном случае проблем у коллег не было — они использовали рекламу в социальной сети.
«Маркетинговый успех Cambridge Analytica основан на трех китах. Это психологический поведенческий анализ, основанный на "модели океана", изучение Big Data и таргетированная реклама»
Другими словами, чтобы получить результаты, описанные в статье, нужно решить основную проблему — с получением данных. Применение же алгоритмов здесь скорее ремесло, чем ноу-хау. Но это ремесло очень важно использовать правильно. Что значит, например, уметь отвечать на следующие вопросы:
- Какого качества алгоритма достаточно, чтобы решение было окупаемым?
- Как правильно выбрать целевую группу и обучающую выборку для обучения алгоритма?
- Как часто надо переобучать модель?
- Как поставить рассчет модели «на поток», за какими метриками нужно следить?
Все вышеперечисленное фактически отличает знание алгоритмов машинного обучения и эффективного применения их к конктертной задаче, что всегда предполагает некий путь. И если сотрудники Cambridge Analytica действительно проделали все то, о чем написано в статье, то их наработки фактически означают большой прорыв в социологии и групповой психологии.
15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте». |
Материалы по теме:
Дональд Трамп vs Технологии: кто кого?
Конгресс США разрешил провайдерам продавать личные данные пользователей
«Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»
Как FinTech использует большие данные — хрестоматийные примеры
Фото на обложке: Фотобанк Фотодженика.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter