Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference
Основатель SocialDataHub рассказал, данные применяют для выявления лидеров мнений.
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия доступен по ссылке.
Представитель SocialDataHub Артур Хачуян рассказал, как с помощью анализа данных выявить лидеров мнений.
Благодаря сервису Penxy презентацию SocialDataHub можно не только посмотреть, но и послушать:
После презентации все желающие смогли задать вопросы спикеру через сервис WhenSpeak. Ниже приводим полный текст интервью с Артуром Хачуяном.
Откуда картинки для фона?
Закупаем на стоках. У нас все презентации такие – корпоративный стиль «пиксель-арт».
Может ли ваша система предсказывать, а не просто анализировать хайп?
Да, можем, и сейчас у нас порядка 5-7 клиентов (рекламных агентств), кто это мониторит. Но, к сожалению, сейчас мы можем только предсказать, что что-то выйдет в тренд, а вот как долго продлится – предсказать очень сложно.
Чем вы собираете данные?
Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают социальные сети. У нас полная копия ВК и ОК без медиаконтента, полная копия русскоязычного сегмента «Фейсбука» и «Инстаграма», а также копии «Твиттера», «Тумблера» и других.
Мы также собираем Stories, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юрлица, ФССП, база судопроизводства), различные сервисы («Авито», Airbnb, «Юла», «Циан») и мобильные приложения — Youdo, Tinder, Badoo. От появления чего-то в открытом интернете до того, как это будет собрано, обработано, проанализировано и структурировано, по внутренним нормативам у нас должно пройти 4 минуты, клиентам отдаем минимальные срезы раз в 5 минут.
Для Роскомнадзора на текущий момент данные соцсетей и их внешнее использование – очень актуальная тема. Вы сказали, что данные спарсили. Как к вашей деятельности относится Роскомнадзор? Например, относительно ВКонтакте и Одноклассников?
Мы не нарушаем 152 Федеральный закон, так как не являемся оператором персональных данных. Пользователи нам их не отдают, как, например, банкам или страховым. Мы анализируем только то, что находится в открытом доступе.
Сейчас вся движуха вокруг истории с Роскомнадзором и сбором данных случилась после официального обращения компании DoubleData в Роскомнадзор, где их не так поняли и сказали, что ничего нельзя. Потом эти обращения неправильно трактовали СМИ и сказали, что ничего нельзя. Но там был рассмотрен случай получения данных у банка о клиентах и поиска их в социальных сетях, а не обработки публичной информации. Это вообще очень тонкая тема, и, как я уже говорил, если мы работаем с данными банков, мы продаем свое личное экспертное мнение.
Какой технологический стэк и какая команда стоит за этой аналитикой?
Наш собственный дата-центр с 8,7 ПБ хранилища и кучей видеокарт Tesla. Не для майнинга, а для обработки данных и анализа графов. Среднее время проведения исследований сейчас у нас составляет 1-2 рабочих дня, что очень быстро. В команде 46 человек, все программисты и аналитики. Остальное все автоматизировано – боты-юристы и бухгалтеры. В качестве БД мы используем MongoDB на распределенной файловой системе.
Расскажите немного, как лайки превращаются в рубли. Кто-нибудь может связать лайки с профитом?
Ну, если считать конверсию «лайк – активность – привлеченная аудитория – просмотренная реклама – переход на сайт», то для блогеров ТОП-300 — это очень низкая величина, порядка 50-150 тысяч лайков в один рекламный переход. Но у нас в клиентах не все блогеры, а информация о переходах и покупках (деньгах) у нас не везде есть.
К b2b как применить?
Много разных историй, начиная с анализа конкурентности рынка, данных о финансах и госзатратах, заканчивая геомаркетингом и поиском места под ресторан или завод.
Вы сейчас признали, что нарушаете закон, когда парсите соцсети?
В ФЗ 152 очень большой набор «воды», большой набор устаревшей «воды», его очень сложно трактовать и применять к современным реалиям. Мы его не нарушаем официально, может что-то что мы делаем неэтично, но все законно. Также мы часто консультируем госорганы на тему различных законодательных решений. Скоро все регламентируют.
-
Бизнес Командировки в 2026 году: как экономить на деловых поездках, не жертвуя комфортом сотрудников 13 мая 2026, 10:00
-
Бизнес Куда идут деньги инвесторов и почему российскому бизнесу стало сложнее их привлекать 12 мая 2026, 15:22
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Деньги Налоговый вычет через личный кабинет в 2026 году: пошаговая инструкция 24 апреля 2026, 21:57
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Honda Motor впервые за свою историю вышла в убыток — потери за финансовый год составили $2,63 млрд 14 мая 2026, 14:54
-
Россия Disney уходит с российских стримингов — в 2027 году весь контент студии удалят из онлайн-кинотеатров 14 мая 2026, 14:20
-
Бизнес Каждая десятая сим-карта в России принадлежит виртуальному оператору — число абонентов превысило 25,5 млн 14 мая 2026, 13:30
-
Искусственный интеллект В России хотят внедрить ИИ в сферу строительства и ЖКХ: нейросети будут обрабатывать документы и обращения граждан 14 мая 2026, 13:00
-
Деньги Прогрессивная шкала НДФЛ принесла в бюджет 52 млрд ₽ за три месяца — более половины суммы заплатили москвичи 14 мая 2026, 12:00
-
Искусственный интеллект Duolingo отказалась от повсеместного использования ИИ — нейросети не сравнятся с лучшими дизайнерами компании 14 мая 2026, 11:00
-
Бизнес Anthropic и OpenAI запретили вторичную торговлю акциями — неодобренные компаниями сделки признают недействительными 13 мая 2026, 21:05
-
Искусственный интеллект Российские ведомства планируют использовать для работы зарубежный ИИ: в топе по популярности — Qwen и модели Meta* 13 мая 2026, 19:50