Мнения / Технологии

«Больше всего нас интересуют деньги» – как мы предсказываем, вернет ли заемщик долг

Кейс: внедрение скоринговой модели в Испании

14 декабря 2017, 12:33

4 минуты

«Больше всего нас интересуют деньги» – как мы предсказываем, вернет ли заемщик долг

Технологии

Автор:

Андрей Атрашкевич

Испания – очень важный рынок для любой финансовой компании, особенно для тех, кто работает в сфере небанковского кредитования. И конкуренция на этом рынке очень жесткая. Выжить там смогут только те, у кого получится свести издержки к нулю.

Андрей Атрашкевич, руководитель направления Data Scienсe финтех-компании ID Finance, рассказал Rusbase об опыте внедрения скоринговой модели в Испании, с помощью которой можно отсекать неблагонадежных заемщиков.

Скоринг может заменить работу многих специалистов

В Испании сложно сделать прогноз о том, вернет ли заемщик деньги вовремя или нет. В бюро кредитных историй этой страны можно узнать лишь обрывочную информацию, которую очень сложно достать.

В России любой финансовый институт, к примеру, может увидеть погашенную просрочку по кредиту, сделанную несколько лет назад.

Удачная скоринговая модель может заменить работу многих специалистов. Правильно рассчитанная вторая цифра после запятой в определенном коэффициенте может сэкономить несколько миллионов евро.

Один из главных показателей для скоринговых моделей – это индекс Джини. Он показывает насколько система может разделить клиентов на тех, кто вернет долг вовремя и на тех, кто опоздает с платежом или начнет от них уклоняться. Чем ближе индекс Джини к единице, тем успешнее модель.

Этот показатель у моделей, построенных только на основе анкеты, без данных кредитной истории, не превышает 0,30. Работать с такой моделью нельзя: есть огромная вероятность невозвратов и в конченом счете убытков.

Показатель Джини определяет не только точность скоринговой модели, но и выгоду от ее применения на практике.

В этом году мы внедрили скоринговую модель в Испании и достигли показателя Джини 0,7.

Если заемщику 60 лет и у него iPhone – это подозрительно

Система интересна тем, что в ней используется не так много информации, как в других моделях. Изначально есть данные, которые заемщик указывает при заполнении заявки на сайте:

Пол
Возраст
Доход
Семейное положение
Наличие детей.

Далеко не все данные мы можем проверить, но эта информация тоже очень полезна: мошенники, например, склонны завышать свой доход относительно среднего уровня для конкретной возрастной группы, профессии или региона.

Мы анализируем маркеры, позволяющие оценить достоверность информации, которую заемщик указал о себе: смотрим с какого устройства он заполнил анкету кредита, какое разрешение экрана на этом устройстве, какая операционная система установлена на компьютере и какой мобильный оператор поставляет услуги связи.

По отдельности эта информация практически ничего не может рассказать о клиенте, но, если сопоставить данные, например, семейное положение и количество детей и доход, вырисовывается портрет заемщика.

Если заемщику за 60 лет, а он пользуется последним iPhone, это может насторожить, равно как и использование мобильного номера, зарегистрированного за несколько дней до подачи заявки на кредит. Конечно, мы берем и данные неполной кредитной истории.

Скоринг должен быть надежным

Модель, разработанная для Испании, использует минимум информации, однако благодаря правильной обработке всех данных и использованию достаточно сложных математических вычислений выдает точный прогноз.

Безусловно, невозможно достоверно предсказать поведение каждого отдельного заемщика, но когда мы ретроспективно смотрим на несколько месяцев работы, то видим, что наша новая скоринговая модель успешно разделяет «хороших» и «плохих» клиентов.

Для оценки успешности модели важно оценивать и ресурсы, затраченные на ее разработку. Например, на реализацию кейса для Испании ушло порядка 30 часов рабочего времени отдела data scientist.

Работа data scientist – это не только разработка скоринговых моделей. 90% рабочего времени уходит на проверку данных, их полноту, корректность и непротиворечивость, и только 10% – это прикладная математика в действии.

Чтобы скоринг работал, сама модель должна быть надежной, как автомат Калашникова.

То есть, удачная модель должна быть одновременно простой и не ломаться, если изменяются входящие данные – распределения характеристик клиентов или кредитная политика компании.

После внедрения модели в Испании мы разработали еще четыре

Использование сложных алгоритмов машинного обучения на сверхбольших объемах данных – это сегодняшний инфо-мейнстрим. Про это говорят представители крупнейших банков. Однако количество реальных кейсов ничтожно мало.

Большая часть внедренческих решений получаются дорогими, непрозрачными для анализа и неподдающимися контролю. Кроме того, они постоянно ломаются: даже небольшие изменения клиентского потока лишают использование модели смысла — она перестает сегментировать клиентов.

После внедрения первой модели в Испании мы разработали еще четыре – для других продуктов. Все модели работают несколько месяцев, удерживая индекс Джини на уровне 0,7. Когда далекие от аналитики люди спрашивают, с чем связана наша работа, я отвечаю, что мы предсказываем будущее.

Если точнее, мы как раз отвечаем за техническую часть этого процесса – разрабатываем скоринговые модели, которые способны предугадать поведение клиентов. Больше всего нас интересуют деньги: мы можем с высокой точностью предсказать, вернет заемщик долг или нет.

Материалы по теме:

Как fraud-скоринг увеличит выдачи кредитов на 50%

Заемные средства для бизнеса – хорошо или плохо?

Кредиты сейчас меняются так же, как автомобили в начале 20 века

Как выглядит типичный день дата-сайентиста в петербургском стартапе

Что такое Big data: собрали всё самое важное о больших данных

Подписаться на телеграм-канал