Артур Хачуян (SocialDataHub) – об анализе данных для выявления лидеров мнений на Big Data Conference
Основатель SocialDataHub рассказал, данные применяют для выявления лидеров мнений.
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия доступен по ссылке.
Представитель SocialDataHub Артур Хачуян рассказал, как с помощью анализа данных выявить лидеров мнений.
Благодаря сервису Penxy презентацию SocialDataHub можно не только посмотреть, но и послушать:
После презентации все желающие смогли задать вопросы спикеру через сервис WhenSpeak. Ниже приводим полный текст интервью с Артуром Хачуяном.
Откуда картинки для фона?
Закупаем на стоках. У нас все презентации такие – корпоративный стиль «пиксель-арт».
Может ли ваша система предсказывать, а не просто анализировать хайп?
Да, можем, и сейчас у нас порядка 5-7 клиентов (рекламных агентств), кто это мониторит. Но, к сожалению, сейчас мы можем только предсказать, что что-то выйдет в тренд, а вот как долго продлится – предсказать очень сложно.
Чем вы собираете данные?
Мы собираем данные с помощью веб-парсинга. На данный момент 57 тысяч виртуальных эмуляторов браузеров (наша обертка над Selenium) собирают социальные сети. У нас полная копия ВК и ОК без медиаконтента, полная копия русскоязычного сегмента «Фейсбука» и «Инстаграма», а также копии «Твиттера», «Тумблера» и других.
Мы также собираем Stories, YouTube, Periscope и каналы мессенджеров, блоги, форумы, поисковую выдачу, государственные реестры (юрлица, ФССП, база судопроизводства), различные сервисы («Авито», Airbnb, «Юла», «Циан») и мобильные приложения — Youdo, Tinder, Badoo. От появления чего-то в открытом интернете до того, как это будет собрано, обработано, проанализировано и структурировано, по внутренним нормативам у нас должно пройти 4 минуты, клиентам отдаем минимальные срезы раз в 5 минут.
Для Роскомнадзора на текущий момент данные соцсетей и их внешнее использование – очень актуальная тема. Вы сказали, что данные спарсили. Как к вашей деятельности относится Роскомнадзор? Например, относительно ВКонтакте и Одноклассников?
Мы не нарушаем 152 Федеральный закон, так как не являемся оператором персональных данных. Пользователи нам их не отдают, как, например, банкам или страховым. Мы анализируем только то, что находится в открытом доступе.
Сейчас вся движуха вокруг истории с Роскомнадзором и сбором данных случилась после официального обращения компании DoubleData в Роскомнадзор, где их не так поняли и сказали, что ничего нельзя. Потом эти обращения неправильно трактовали СМИ и сказали, что ничего нельзя. Но там был рассмотрен случай получения данных у банка о клиентах и поиска их в социальных сетях, а не обработки публичной информации. Это вообще очень тонкая тема, и, как я уже говорил, если мы работаем с данными банков, мы продаем свое личное экспертное мнение.
Какой технологический стэк и какая команда стоит за этой аналитикой?
Наш собственный дата-центр с 8,7 ПБ хранилища и кучей видеокарт Tesla. Не для майнинга, а для обработки данных и анализа графов. Среднее время проведения исследований сейчас у нас составляет 1-2 рабочих дня, что очень быстро. В команде 46 человек, все программисты и аналитики. Остальное все автоматизировано – боты-юристы и бухгалтеры. В качестве БД мы используем MongoDB на распределенной файловой системе.
Расскажите немного, как лайки превращаются в рубли. Кто-нибудь может связать лайки с профитом?
Ну, если считать конверсию «лайк – активность – привлеченная аудитория – просмотренная реклама – переход на сайт», то для блогеров ТОП-300 — это очень низкая величина, порядка 50-150 тысяч лайков в один рекламный переход. Но у нас в клиентах не все блогеры, а информация о переходах и покупках (деньгах) у нас не везде есть.
К b2b как применить?
Много разных историй, начиная с анализа конкурентности рынка, данных о финансах и госзатратах, заканчивая геомаркетингом и поиском места под ресторан или завод.
Вы сейчас признали, что нарушаете закон, когда парсите соцсети?
В ФЗ 152 очень большой набор «воды», большой набор устаревшей «воды», его очень сложно трактовать и применять к современным реалиям. Мы его не нарушаем официально, может что-то что мы делаем неэтично, но все законно. Также мы часто консультируем госорганы на тему различных законодательных решений. Скоро все регламентируют.
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Бизнес «Точно розовый?»: как Eburet из табурета-трансформера вырос в B2B-бренд, который заходит на рынок в 50 млрд ₽ 11 февраля 2026, 19:48
-
Искусственный интеллект Экономика суверенитета: как финансовый сектор, промышленность и ретейл монетизируют новые технологии 28 апреля 2026, 17:00
-
Бизнес Таможенные пошлины в 2026 году: виды, расчёт, оплата и оптимизация 27 апреля 2026, 20:00
-
Бизнес Школы для писателей: сколько стоит мечта написать книгу 27 апреля 2026, 11:01
-
Банки В начале 2026 года кредитные договоры с уступками приблизились к полумиллиону — ипотека и автокредиты в приоритете 28 апреля 2026, 20:00
-
Бизнес Flowwow открывает первый офлайн-магазин в центре Москвы: помимо товаров в нём будут кафе и лаундж-зоны 28 апреля 2026, 19:35
-
Технологии «Возможность конкурировать с криптобиржами — вызов»: в России появится законопроект по регуляции рынка криптовалюты 28 апреля 2026, 19:12
-
Искусственный интеллект OpenAI не смогла выполнить цели по наращиванию продаж и аудитории — это отразилось на акциях партнёров стартапа 28 апреля 2026, 19:00
-
Реклама В Яндексе доля рекламных бюджетов под управлением ИИ достигла 85% — нейросети генерируют почти каждый третий баннер 28 апреля 2026, 18:21
-
Тренды «Массового замещения людей машинами» не будет: главным барьером для бизнеса станет не ИИ, а дефицит кадров 28 апреля 2026, 16:01
-
Банки В Москве проходит Альфа-Саммит — топ-менеджеры обсуждают ключевые вызовы бизнеса и экономики 28 апреля 2026, 10:00
-
Бизнес Тим Кук покидает пост CEO Apple — его преемником станет главный инженер компании Джон Тернус 21 апреля 2026, 00:07