Top.Mail.Ru
Списки и рейтинги

Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference

Списки и рейтинги
Наиль Байназаров
Наиль Байназаров

Редактор медиа РБ.РУ

Наиль Байназаров

По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.

В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия доступен по ссылке.

Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference

Представитель SocialDataHub Артур Хачуян рассказал, как с помощью анализа данных выявить лидеров мнений.

Благодаря сервису Penxy презентацию SocialDataHub можно не только посмотреть, но и послушать:

После презентации все желающие смогли задать вопросы спикеру через сервис WhenSpeak. Ниже приводим полный текст интервью с Артуром Хачуяном.


Откуда картинки для фона?

Закупаем на стоках. У нас все презентации такие – корпоративный стиль «пиксель-арт».

Может ли ваша система предсказывать, а не просто анализировать хайп?

Да, можем, и сейчас у нас порядка 5-7 клиентов (рекламных агентств), кто это мониторит. Но, к сожалению, сейчас мы можем только предсказать, что что-то выйдет в тренд, а вот как долго продлится – предсказать очень сложно.

Чем вы собираете данные?

Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают социальные сети. У нас полная копия ВК и ОК без медиаконтента, полная копия русскоязычного сегмента «Фейсбука» и «Инстаграма», а также копии «Твиттера», «Тумблера» и других.

Мы также собираем Stories, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юрлица, ФССП, база судопроизводства), различные сервисы («Авито», Airbnb, «Юла», «Циан») и мобильные приложения — Youdo, Tinder, Badoo. От появления чего-то в открытом интернете до того, как это будет собрано, обработано, проанализировано и структурировано, по внутренним нормативам у нас должно пройти 4 минуты, клиентам отдаем минимальные срезы раз в 5 минут.

Для Роскомнадзора на текущий момент данные соцсетей и их внешнее использование – очень актуальная тема. Вы сказали, что данные спарсили. Как к вашей деятельности относится Роскомнадзор? Например, относительно ВКонтакте и Одноклассников?

Мы не нарушаем 152 Федеральный закон, так как не являемся оператором персональных данных. Пользователи нам их не отдают, как, например, банкам или страховым. Мы анализируем только то, что находится в открытом доступе.

Сейчас вся движуха вокруг истории с Роскомнадзором и сбором данных случилась после официального обращения компании DoubleData в Роскомнадзор, где их не так поняли и сказали, что ничего нельзя. Потом эти обращения неправильно трактовали СМИ и сказали, что ничего нельзя. Но там был рассмотрен случай получения данных у банка о клиентах и поиска их в социальных сетях, а не обработки публичной информации. Это вообще очень тонкая тема, и, как я уже говорил, если мы работаем с данными банков, мы продаем свое личное экспертное мнение.

Какой технологический стэк и какая команда стоит за этой аналитикой?

Наш собственный дата-центр с 8,7 ПБ хранилища и кучей видеокарт Tesla. Не для майнинга, а для обработки данных и анализа графов. Среднее время проведения исследований сейчас у нас составляет 1-2 рабочих дня, что очень быстро. В команде 46 человек, все программисты и аналитики. Остальное все автоматизировано – боты-юристы и бухгалтеры. В качестве БД мы используем MongoDB на распределенной файловой системе.

Расскажите немного, как лайки превращаются в рубли. Кто-нибудь может связать лайки с профитом?

Ну, если считать конверсию «лайк – активность – привлеченная аудитория – просмотренная реклама – переход на сайт», то для блогеров ТОП-300 — это очень низкая величина, порядка 50-150 тысяч лайков в один рекламный переход. Но у нас в клиентах не все блогеры, а информация о переходах и покупках (деньгах) у нас не везде есть.

К b2b как применить?

Много разных историй, начиная с анализа конкурентности рынка, данных о финансах и госзатратах, заканчивая геомаркетингом и поиском места под ресторан или завод.

Вы сейчас признали, что нарушаете закон, когда парсите соцсети?

В ФЗ 152 очень большой набор «воды», большой набор устаревшей «воды», его очень сложно трактовать и применять к современным реалиям. Мы его не нарушаем официально, может что-то что мы делаем неэтично, но все законно. Также мы часто консультируем госорганы на тему различных законодательных решений. Скоро все регламентируют.


Смотреть все презентации.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Big Data Conference — итоговый отчет
  2. 2 Андрей Шумов (Vizex) – о геймификации больших данных на Big Data Conference
  3. 3 Александр Сербул (1С-Битрикс) – об инверсном индексе для чатботов на Big Data Conference
  4. 4 Максим Кулиш (OWOX) – об извлечении смысла из больших данных e-commerce на Big Data Conference
  5. 5 Андрей Орлов (IBM) – об использовании когнитивной платформы в реальных проектах на Big Data Conference