Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия доступен по ссылке.
Представитель SocialDataHub Артур Хачуян рассказал, как с помощью анализа данных выявить лидеров мнений.
Благодаря сервису Penxy презентацию SocialDataHub можно не только посмотреть, но и послушать:
После презентации все желающие смогли задать вопросы спикеру через сервис WhenSpeak. Ниже приводим полный текст интервью с Артуром Хачуяном.
Откуда картинки для фона?
Закупаем на стоках. У нас все презентации такие – корпоративный стиль «пиксель-арт».
Может ли ваша система предсказывать, а не просто анализировать хайп?
Да, можем, и сейчас у нас порядка 5-7 клиентов (рекламных агентств), кто это мониторит. Но, к сожалению, сейчас мы можем только предсказать, что что-то выйдет в тренд, а вот как долго продлится – предсказать очень сложно.
Чем вы собираете данные?
Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают социальные сети. У нас полная копия ВК и ОК без медиаконтента, полная копия русскоязычного сегмента «Фейсбука» и «Инстаграма», а также копии «Твиттера», «Тумблера» и других.
Мы также собираем Stories, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юрлица, ФССП, база судопроизводства), различные сервисы («Авито», Airbnb, «Юла», «Циан») и мобильные приложения — Youdo, Tinder, Badoo. От появления чего-то в открытом интернете до того, как это будет собрано, обработано, проанализировано и структурировано, по внутренним нормативам у нас должно пройти 4 минуты, клиентам отдаем минимальные срезы раз в 5 минут.
Для Роскомнадзора на текущий момент данные соцсетей и их внешнее использование – очень актуальная тема. Вы сказали, что данные спарсили. Как к вашей деятельности относится Роскомнадзор? Например, относительно ВКонтакте и Одноклассников?
Мы не нарушаем 152 Федеральный закон, так как не являемся оператором персональных данных. Пользователи нам их не отдают, как, например, банкам или страховым. Мы анализируем только то, что находится в открытом доступе.
Сейчас вся движуха вокруг истории с Роскомнадзором и сбором данных случилась после официального обращения компании DoubleData в Роскомнадзор, где их не так поняли и сказали, что ничего нельзя. Потом эти обращения неправильно трактовали СМИ и сказали, что ничего нельзя. Но там был рассмотрен случай получения данных у банка о клиентах и поиска их в социальных сетях, а не обработки публичной информации. Это вообще очень тонкая тема, и, как я уже говорил, если мы работаем с данными банков, мы продаем свое личное экспертное мнение.
Какой технологический стэк и какая команда стоит за этой аналитикой?
Наш собственный дата-центр с 8,7 ПБ хранилища и кучей видеокарт Tesla. Не для майнинга, а для обработки данных и анализа графов. Среднее время проведения исследований сейчас у нас составляет 1-2 рабочих дня, что очень быстро. В команде 46 человек, все программисты и аналитики. Остальное все автоматизировано – боты-юристы и бухгалтеры. В качестве БД мы используем MongoDB на распределенной файловой системе.
Расскажите немного, как лайки превращаются в рубли. Кто-нибудь может связать лайки с профитом?
Ну, если считать конверсию «лайк – активность – привлеченная аудитория – просмотренная реклама – переход на сайт», то для блогеров ТОП-300 — это очень низкая величина, порядка 50-150 тысяч лайков в один рекламный переход. Но у нас в клиентах не все блогеры, а информация о переходах и покупках (деньгах) у нас не везде есть.
К b2b как применить?
Много разных историй, начиная с анализа конкурентности рынка, данных о финансах и госзатратах, заканчивая геомаркетингом и поиском места под ресторан или завод.
Вы сейчас признали, что нарушаете закон, когда парсите соцсети?
В ФЗ 152 очень большой набор «воды», большой набор устаревшей «воды», его очень сложно трактовать и применять к современным реалиям. Мы его не нарушаем официально, может что-то что мы делаем неэтично, но все законно. Также мы часто консультируем госорганы на тему различных законодательных решений. Скоро все регламентируют.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025