Мария Анисимова – о поиске решений потребностей горожан на основе прогноза их реакции на Big Data Conference
Мария Анисимова из ДИТ Москвы рассказала, как большие данные улучшили жизнь москвичей.
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия можно найти по ссылке.
Мария Анисимова из Департамента информационных технологий города Москвы рассказала о методе поиска оптимального решения выявленной потребности жителя города на основе прогноза его реакции.
Благодаря сервису Penxy вы можете посмотреть и послушать выступление Марии Анисимовой на Big Data Conference:
После доклада аудитория задавала вопросы спикеру через сервис WhenSpeak. Ниже публикуем вопросы и ответы.
В чем глобальная цель?
Глобальная цель — в оптимизации временных затрат, которые пользователи несут при поиске какой-либо городской информации для решения так называемых бытовых вопросов. Чем больше у жителя остается времени на развитие себя, своего окружения, тем быстрее и эффективнее развивается сам город.
Вы объединяете профили пользователей из разных ваших ресурсов в какой-то единый материнский профиль?
Нет, это затруднительно, да и нецелесообразно. Помимо того, что статус пользователей постоянно изменяется из-за различных жизненных событий, профиль может использоваться для разных городских «маркетинговых» кампаний – где-то это рассылка, где-то персонализация контента на интернет-ресурсе, то есть необходимо представление профиля в различных плоскостях в зависимости от бизнес-задачи, а от этого изменяется и профильный набор характеристик.
В целом мы создаем набор правил построения, которые уже использует каждая информационная система самостоятельно для структурирования своих данных.
Возможно ли использовать созданные профили жителей для выявления каких-то уголовных преступлений, например, выявлять профили преступников, грабителей банка?
В мировой практике, безусловно, есть исследовательские работы на предмет выявления интересов к проявлению агрессии – опять же, это возможно на основе анализа сайтов, имеющих в своем контенте освещение различных преступных событий. Мы же этой темы не касались, такие профили не строили.
Какие инструменты используете для анализа?
Если говорить про матаппарат, то набор весьма стандартный (пока):
- для задач кластеризации – методы PCA (главных компонент) и DBSCAN;
- для задач классификации и прогнозирования поведения – градиентный бустинг над деревьями/случайный лес и логистическую регрессию, графовые связи;
- для задач семантического анализа и другого анализа текстовой информации – VSM, k-средние, наивный байесовский классификатор, метод максимальной энтропии.
Если говорить про технический инструментарий – то все это Hadoop (с базовой HDFS, Hivе, HBase, Spark для ML и так далее).
Отдаёте ли вы данные в рекламу (DMP, DSP)?
Редко прибегаем к такому инструментарию. Если и работаем по такой схеме, то только при обмене предиктивными профилями, то есть сложными синтетическими атрибутами (профиль интересов, к примеру).
Система жители-город имеет обратные связи. Есть понимание, где жители формируют город, а где город должен формировать жителей? Есть области, где социуму должны задаваться определенные правила, а не наоборот?
Безусловно есть такие области, мы не говорим об их исключении. Этот вопрос больше относится к нормативно-правовому полю, нежели к аналитике. Продемонстрированный процесс показывает возможность, которая позволяет городу быстрее реагировать на запросы жителей, но не исключает и не пытается заменить городские (и мировые) процессы по систематизации жизни социума.
Сформирован ли какой-то реестр потенциальных потребностей жителей? Как он пополняется? Экспертно или есть какая-то математическая модель, которая анализирует запросы жителей в разных системах и понимает, что такая потребность характерна для многих, и добавляет ее в реестр?
К автоматическому формированию реестров предоставляемых услуг мы еще не пришли, так как здесь задействовано множество органов исполнительной власти города Москвы, которые эти услуги предоставляют. Представленный механизм позволяет выявлять потенциальную потребность в использовании имеющихся городских электронных услуг и сервисов.
Два года назад сменилось место жительства (прописки). На выборах меня нет ни в одном списке избирателей: по старой прописке исключили, по новой не включили. Налог приходит на старый адрес, счета и штрафы – на новый. У меня в профиле только новый адрес. В датасете, похоже, есть «мусор»... Как вы с этим боретесь?
Не боремся, адаптируемся. Учимся нормализовывать, выявляем выбросы. Но, безусловно, основным триггером для выявления такого «мусора» является прямая обратная связь от пользователя. Обязательно пишите о проблеме – это позволяет нам оптимизировать работу наших информационных систем, и электронных ресурсов в том числе.
В презентации есть слова о потенциальном получении водительского удостоверения. Приведите пример, как что вы фактически делаете в помощь таким людям? Или аналогичные приземлённые примеры.
Идея в том, что не все жители знают о возможности записаться на получение водительского удостоверения или на медкомиссию для получения справки в ГИБДД, используя электронные сервисы. Цель – уметь по профилю выявлять тех, кому это может быть необходимо, и предоставлять соответствующую информацию, приоритезировав относительно остального контента.
Приведённые сценарии не похожи на большие данные. Это типичная аналитика на истории поведения конкретного пользователя. Как вы думаете?
Это типичная аналитика на больших данных. Анализ больших данных не всегда характеризуется сложностью используемых математических моделей, а также сложностью обработки огромных массивов различных по структуре и составу данных.
Кроме того, цель – обеспечить подготовку информации в риалтайме, так как лаг в несколько месяцев, даже недель, недопустим ввиду того, что информация теряет актуальность. И, на самом деле, относительно типичности тоже можно поспорить.
Задача же — не только в выявлении закономерности или построении корреляционных связей, задача в том, чтобы понять, как эту информацию использовать далее, как на ней возможно спрогнозировать аналогичное поведение другим пользователем при потреблении отличного по тематике контента.
Как вы узнаете, сообщил ли отец сыну об изменении маршрута? То есть выполнил ли свою роль лидер мнения?
Обратная связь, появление новых связей в графах отношений, увеличение частоты посещений целевой аудитории релевантных разделов на сайтах.
Где вы видите точки контакта с жителями города? Персонализируете ли вы интерфейсы по профилю пользователя?
Да, сейчас как раз тестируем разные подходы к персонализации интерфейсной части. Пока результаты радуют, но все же это пилотные проекты. Собственно, примеры таких проектов приведены и в презентации, и в ответах на вопросы выше. Если говорить именно про интерфейсную часть, то цель – как персонализировать статичную контентную часть (приоритезация новостей, инструкций, другой информации), так и выводить подсказки в момент времени, когда это наиболее необходимо пользователю.
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Бизнес «Малый бизнес драйвит всё»: как компании из Архангельска растут на терпении, связях и самоиронии 25 мая 2026, 18:03
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Деньги Налоговый вычет через личный кабинет в 2026 году: пошаговая инструкция 24 апреля 2026, 21:57
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Бизнес Кикшеринг Юрент теперь можно использовать как корпоративный транспорт — самокаты появились в СДЭК и SwiftDrive 02 июня 2026, 20:30
-
Россия В России утвердили новые правила подсчёта просмотров в онлайн-кинотеатрах: статистику привяжут к номеру телефона 02 июня 2026, 20:00
-
Технологии Яндекс Пэй разрешил подтверждать подозрительные переводы через доверенное лицо — для защиты от мошенников 02 июня 2026, 19:30
-
Стартапы В Москве прошёл фестиваль Startup Village — стартапы заключили 50 соглашений о запуске проектов в РФ и за рубежом 02 июня 2026, 19:00
-
Бизнес «Аэрофлот» опубликовал финансовые результаты за I квартал 2026 года: чистый убыток группы — 11,9 млрд ₽ 02 июня 2026, 18:05
-
Технологии 84% российских приложений содержат критические уязвимости — проблемы всё чаще возникают из-за некорректного ИИ-кода 02 июня 2026, 17:10
-
Бизнес «Лента» приобретает гипермаркеты «О’КЕЙ» — вместо прямой оплаты ритейлер примет на себя долговые обязательства сети 02 июня 2026, 16:00
-
Бизнес МТС впервые с 2009 года привлекла кредит от российских банков — сумма займа может достичь 70 млрд ₽ 02 июня 2026, 15:40