Александр Сидоров (HeadHunter) – об архитектуре машинного обучения на Big Data Conference
Как машинное обучение помогает подбирать подходящие вакансии
По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.
В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия можно найти по ссылке.
Представитель HeadHunter Александр Сидоров рассказал о распределенной архитектуре поиска и машинного обучения на примере HeadHunter.
Благодаря сервису Penxy презентацию Александра Сидорова можно не только посмотреть, но и послушать:
Аудитория смогла задать свои вопросы Александру через специальный сервис WhenSpeak. Публикуем полный вариант этого интервью.
Примечание: в записи на 21:43 оговорка, имелось в виду несколько сотен миллионов кликов и несколько миллионов откликов.
Встроенная рекомендательная система вакансий работает не очень — рекомендует нерелевантные вакансии, с чем это может быть связано?
Рекомендательная система вакансий учится на откликах на вакансии и других действиях, большая часть которых получается из поисковой выдачи, а признаки использует из вакансии и резюме. Когда она даёт не очень качественные результаты, это может быть связано:
- с редкостью профессии (никто не откликался похожими резюме на похожие вакансии – не на чем научиться);
- с тем, что мы только начали внедрять поиск на ML, ещё за неделю до конференции он был полностью текстовым, без машинного обучения и учёта резюме. Поиск не показал подходящую вакансию на похожие резюме вверху выдачи – нет откликов – не на чем научиться;
- с тем, что в резюме не очень хорошо написано, что конкретно человек делал и сделал на последних работах, какие инструменты использовал, и вакансиях описание, что именно нужно знать и делать, написано или не очень хорошо, или очень необычно, «чтобы отличаться».
В принципе, понятно, что с этим делать, второе скоро поправим, первое и третье – тоже в некоторой степени можно, в планах.
Расскажите, пожалуйста, подробнее про модели и как к ним пришли, про предобработку данных, про алгоритмы обучения.
Обычные линейные модели (первый фильтр) и XGBoost (второй фильтр, ранжирование) со специально подобранными гиперпараметрами, чтобы score’ы по метрикам map и ndcg получались лучше.
Выгружаются данные из нескольких видов логов в Hadoop за обычный месяц, объединяются, вычищаются пользователи с признаками роботов, null’ы и NaN’ы для разных признаков обрабатываются немного по-разному.
Начали с фильтра только с линейной моделью, затем добавили ещё один фильтр на XGBoost, чтобы ранжирующий XGBoost можно было сделать более тяжёлым, не увеличивая ресурсоёмкость и время откликов.
Пришли так: сделали локальные и online-метрики качества моделей и признаков, формируем гипотезы, как можно сделать метрики лучше (что сделать с признаками, target’ами, какие алгоритмы и их наборы попробовать), ставим в план, делаем, измеряем локальные метрики, если есть прирост — измеряем online-метрики в A/B-тестах, если снова ОК, то выпускаем на всех, потом то же самое со следующей гипотезой.
Сколько обращений за резюме в день?
Если имеется в виду количество обращений к резюме из базы при формировании результатов поиска по вакансиям, то 5-8 млн в день, на пике до 12 млн, это без учёта трафика мобильных приложений и роботов. Если учесть обращения от мобильных приложений и других пользователей API, а также при формировании рассылок с рекомендуемыми вакансиями и роботов, то примерно вдовое больше.
Пару слов, как формируете фичи из резюме и как работаете с вакансиями.
Делаем признаки из полей вакансий и резюме как есть, и с обычной векторизации текста, bag of words. Пробуем разные сочетания pairwise-признаков, разную кодировку категориальных признаков, разные виды свёртки векторов из текста. Затем более сложные признаки.
Примеры фичей приведите, пожалуйста.
Зарплата «от», сколько лет опыта работы, география — регион, график работы, косинусное расстояние между векторизованным текстом резюме и вакансии.
-
Партнёрский материал Экс-директор Xiaomi о том, как делать сильные продукты и внедрять ИИ без иллюзий 06 апреля 2026, 16:14
-
Россия Минус 50 — не приговор: как в Якутске строят устойчивый бизнес 06 апреля 2026, 15:39
-
Кибербезопасность Как пополнить Apple ID в России после 1 апреля 2026 года 03 апреля 2026, 19:34
-
Налоговый вычет за лечение в 2026 году: лимиты, документы и пошаговая инструкция 31 марта 2026, 18:21
-
Ритейл Почему интернет-магазины перестают строить доставку сами 27 марта 2026, 12:14
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Технологии Яндекс интегрирует свои сервисы в автомобили Changan — Яндекс Книги и Музыка станут доступны сразу в 10 странах 08 апреля 2026, 11:44
-
Искусственный интеллект Яндекс Поиск сэкономил 4,5 млрд ₽ в 2025 году благодаря ИИ — при этом качество ответов Алисы AI выросло в 3 раза 07 апреля 2026, 19:35
-
Маркетплейсы М.Видео может закрыть до 30% точек в 2026-м: основные причины — конкуренция с маркетплейсами и смена бизнес-модели 07 апреля 2026, 17:56
-
Маркетплейсы Маркетплейсы и ритейл начали ограничивать доступ пользователям с включённым VPN — покупатели жалуются на сбои 07 апреля 2026, 15:20
-
Россия В работе «Ростелекома» произошёл масштабный сбой из-за DDoS-атаки — пользователи жалуются на проблемы с интернетом 06 апреля 2026, 23:59
-
Бизнес В Москве проходит форум о целевых капиталах: бизнес обсуждает финансовую устойчивость НКО и их будущее 03 апреля 2026, 14:17
-
Ритейл «Купер» запустил программу лояльности: малый и средний бизнес сможет вернуть 1,5% с закупок 31 марта 2026, 11:35
-
Россия В России средний чек на туры вырос с 60 тыс. до 93 тыс. рублей, а ОАЭ не теряют популярности у российских туристов 30 марта 2026, 20:14