Top.Mail.Ru
Истории

Роман Стятюгин (Mail.Ru Group) – о больших данных в HR на Big Data Conference

Истории
Никита Стаценко
Никита Стаценко

Редактор RB.RU

Светлана Зыкова

По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.

В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия можно найти по ссылке.

Роман Стятюгин (Mail.Ru Group) – о больших данных в HR на Big Data Conference

Роман Стятюгин (Mail.Ru Group) выступил с темой «Data driven HR: поиск, оценка и прогноз увольнения персонала».

Благодаря сервису Penxy его презентацию можно не только посмотреть, но и послушать:

По завершении презентации спикеру поступали вопросы через сервис WhenSpeak. Публикуем открытое интервью со спикером:


Про поиск

Используется ли ваша технология при оценки кандидатов в Mail.ru Group? Как психология объясняет ваше решение относительно кандидата?

Для оценки кандидатов технология автоматизированного типирования не применяется. Она предназначена для того, чтобы вероятностно определить признаки, характеризующие портрет определенной группы, без анкетирования каждого конкретного человека. Это позволяет оптимизировать процесс типирования, сделав его быстрее и дешевле. При этом не имеет принципиального значения, на базе какой методологии проводится типирование: алгоритм можно адаптировать к большинству из них.

Мы тестируем эту технологию по различным направлениям (в рекламе, маркетинге и в HR), чтобы оценить потенциальный экономический эффект от ее применения. В первую очередь она разработана не для оценки конкретного кандидата, а для формирования обобщенного портрета группы: подразделения, проектной команды, роли и т.д. В дальнейшем это может помочь в таких HR-процессах, как, например, развитие корпоративной культуры, управление изменениями.

 

Как вы определяли, что кандидат будет успешен в вашей компании?

Рекрутер, ответственный за закрытие вакансии, анализирует информацию об успешных сотрудниках, работающих в компании на похожей позиции, и выделяет формальные признаки, которые их объединяют. Используя этот профиль в качестве эталона, мы строим математическую модель, которая выявляет пользователей, похожих на «эталонного успешного кандидата». Этому сегменту мы адресуем таргетированное сообщение в интернете.

 

Ваша модель работает только для массовых позиций или может применяться для найма работников на нестандартную проектную работу? Модель может решить задачу формирования эффективной проектной команды?

Максимальная экономия времени и средств с повышением качества подбора достигается в том случае, когда речь идет о массовых профессиях или позициях, не требующих большого опыта работы. Во-первых, больше данных для построения качественной математической модели, во-вторых, откликается больше кандидатов. Важно, что удается привлекать кандидатов, которые не размещают резюме на сайтах поиска работы. Используя технологию, мы получаем уникальный дополнительный источник качественных откликов и резюме.

 

Какие факторы участвовали в построении модели (как понимали, кому показывать предложение)? 

Для таргетированного поиска персонала в интернете была создана математическая модель, которая выявляла пользователей, похожих на портрет успешного кандидата. С ее помощью были построены специализированные аудиторные сегменты. После этого в myTarget и ВКонтакте запускались рекламные кампании, таргетированные на эти сегменты аудитории.

 

Про психотипы

Есть ли у психометрических методик научное объяснение? Какова достоверность психометрического подхода как она подтверждается?

В рамках этого проекта мы проверили гипотезу о том, что можно без заполнения анкеты получить данные о психологических характеристиках человека и ассоциируемых с ними личных предпочтениях. Гипотеза подтвердилась. Выбор методик был обусловлен наличием достаточного количества данных для проведения эксперимента. В будущем методология типирования будет выбираться в зависимости от специфики задачи, поставленной заказчиком.

Как вы учитываете эмоциональный фактор? В любой корпорации все в масках :)

Алгоритмическое типирование как раз позволяет обойти эмоциональный фактор. Эмоции оказывают влияние на результат в момент заполнения анкеты, а при использовании математических алгоритмов этот фактор исключается, поскольку никаких анкет человек не заполняет.

 

Что на выходе модели психотипирования получает компания: это характеристика или скоринговый балл?

Мы провели внутри компании тестирование, в котором участвовало несколько команд. На выходе мы получили общий неперсонализированный портрет каждой из команд, который отражал смещение в сторону того или иного признака типирования. Иными словами, для каждой команды были выявлены «характерные признаки сотрудника».

 

Почему 200 тыс. пользователей, достаточно ли для построения модели?

На самом деле для построения модели достаточно 100–150 тыс. заполненных анкет. На обучающей выборке такого объема мы получили приемлемое качество модели с точки зрения разделяющей способности. После этого порога прирост качества модели замедляется. Но мы взяли анкеты с запасом.

Кроме того, для поддержания актуальности модели мы продолжаем понемногу добирать анкеты; таким образом, со временем выборка для обучения модели растет.

 

Не планируете делать модель для топ-менеджмента? Есть ли наработки, как использовать такие факторы, как скорость принятия решений, их качество? Это самое труднопрогнозируемое, но зато самое продаваемое.

На текущий момент таких проектов у нас нет.

 

Считали ли психотипирование профиля ВКонтакте?

Автоматическое психотипирование применяется не к конкретному человеку или профилю соцсети, а для определения характеристики групп – аудиторных сегментов или команд.

 

Использовались ли соцсвязи людей, по которым было проведено типирование, для анализа круга общения того или иного типа?

Для представленных сценариев социальные связи не использовались.

 

Про технологии

Какие инструменты использовали? 

Мы используем opensource-решения для анализа, моделирования и обработки больших объемов данных.

Технологический стек объединяет в себе как внутренние разработки компании (Tarantool), так и наиболее популярные в среде Data Science решения на базе Hadoop и Spark и самые современные алгоритмы Machine Learning, реализованные в таких библиотеках как Scikit-learn, Spark ML, XGboost, Vowpal Wabbit, Tensorflow.

 

Как долго вы уже используете эти модели на практике и какова эффективность?

Мы начали использовать на практике подход с таргетированными сообщениями потенциальным кандидатам в этом году, и уже сейчас видим хороший экономический эффект. Время закрытия вакансий на некоторых позициях сократилось в два раза, стоимость –  в четыре.

 

В Excel возможно подобное реализовать?

Нет, объемы обрабатываемой информации существенно превосходят возможности Excel.

 

Выводы

Что компания получает на выходе относительно первого и второго сценария?

Первый сценарий с таргетированным привлечением кандидатов уже доказал свою жизнеспособность и дает хороший экономический эффект – экономию времени и денег. Мы планируем и дальше использовать его для поиска кандидатов на массовые позиции.

Второй сценарий, который позволяет проводить типирование субъекта (вне зависимости от выбранной методики) без применения анкет, пока анализируется. На сегодняшний день в процессах HR на практике не используется.

Смотреть все презентации.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Big Data Conference — итоговый отчет
  2. 2 Андрей Шумов (Vizex) – о геймификации больших данных на Big Data Conference
  3. 3 Александр Сербул (1С-Битрикс) – об инверсном индексе для чатботов на Big Data Conference
  4. 4 Максим Кулиш (OWOX) – об извлечении смысла из больших данных e-commerce на Big Data Conference
  5. 5 Андрей Орлов (IBM) – об использовании когнитивной платформы в реальных проектах на Big Data Conference