Анализ клиентов и построение риск-моделей в банкинге

Колонки 26 октября 2024

Алексей Хорошилов

Senior Data Scientist в Robofinance

Ахмед Садулаев

Как анализ данных используют в банковской сфере и почему кредитные организации предлагают худшие условия «рисковым» клиентам? Senior Data Scientist в Robofinance Алексей Хорошилов рассказывает и показывает, как строятся риск-модели в банкинге.

Подписаться на RB.RU в Telegram

Банки используют анализ данных для сегментации клиентской базы в зависимости от финансового поведения и уровня дохода. Грубо говоря, анализ данных помогает получить информацию о клиентской базе банка, определить, какие группы клиентов могут иметь одинаковые потребности и предпочтения и, основываясь на эти данные, улучшать свои продукты и услуги.

Риск-модели в частности анализируют данные о кредитной истории, доходах и прочих факторах, необходимых для прогнозирования событий дефолта, потерь при дефолте, кредитной конверсии и т.д.

Таким образом, банки совершенствуют свою стратегию взаимодействия с клиентами. Банки поощряют более надежных клиентов и предлагают не самые лояльные условия более рискованным, принимая решения на основе накопленных данных.

Читайте по теме:

Как закрыть кредит досрочно

«Говорить о размере нет смысла». Что Набиуллина заявила после повышения ключевой ставки до рекордного уровня

Кто пользуется банковскими услугами

Банки оказывают услуги как физическим, так и юридическим лицам. В некоторых случаях к клиентам банков могут относиться и государственные органы или административные единицы, представляющие интересы государства.

Какие бывают банковские риски

Банковские риски — это любые вероятные потери, которые могут возникнуть в результате неблагоприятных событий.

Кредитные риски. Неплатежеспособность заемщика, банковский риск — последующие убытки для банка. Допускаются из-за недостаточной оценки платежеспособности клиентов или изменения экономических условий.
Рыночные риски. Связаны с изменениями на финансовых рынках. Бывают процентные, валютные и фондовые рыночные риски. Например, процентный риск возникает из-за колебаний процентных ставок, что может повлиять на доходность активов.
Нефинансовые риски. Операционные риски, правовые риски и риски, связанные с потерей деловой репутации. Операционные риски, например, могут быть по причине неналаженных внутренних процессов или человеческого фактора.
Риск потери ликвидности. Невозможность банка выполнить свои обязательства в срок из-за нехватки ликвидных средств.

Что прогнозируют риск-модели в кредитных рисках

Риск-модели учитывают ряд факторов, чтобы предотвратить возможные потери, например, из-за дефолта заемщика.

Основные факторы риска, которые предсказывают риск-модели по отдельно взятым заемщикам:

Вероятность дефолта (PD): Вероятность того, что заемщик не сможет выполнить свои обязательства в течение определенного периода времени.
Потери в случае дефолта (LGD): Доля актива, которая теряется в случае дефолта заемщика.
Коэффициент кредитной конверсии (CCF): Соотношение между дополнительной суммой кредита, используемой в будущем, и суммой, которая может быть востребована.

Значимость каждого фактора определяется его влиянием на вероятность наступления неблагоприятных событий и зависит от конкретной модели и ее целей.

Помимо моделей, индивидуально оценивающих клиентов, банки также используют портфельные макромодели, чтобы оценить риски, связанные с кредитованием, но уже по совокупности заемщиков.

Данные модели зависят от макропоказателей (например, ВВП и инфляция) и помогают понять, как изменения в экономике повлияют на уже рассмотренные выше факторы риска (PD, LGD, CCF). Например, рост ВВП и низкие процентные ставки часто ассоциируются с улучшением финансового состояния заемщиков, что может снизить дефолтность кредитного портфеля.

Снижение же ВВП, увеличение безработицы или увеличение базовой процентной ставки могут повысить как уровень просроченной задолженности, так и увеличить потери при дефолте, так как заемщики сталкиваются с трудностями в выплате долгов.

Риск-модели не только помогают выявлять сегменты клиентов с учетом их характеристик и поведения, но и прогнозируют доходы клиентов, их склонность к мошенничеству, моделируют вероятность отклика клиентов на предложения и вероятность их оттока.

Риск-модели постоянно совершенствуются для повышения точности прогнозов и принятия более обоснованных решений в условиях неопределенности.

ML-модели для управления рисками

Методы ML помогают более точно предсказывать значения PD, LGD и CCF.

Для вышеупомянутых задач часто применяются классические методы машинного обучения, в частности для моделей вероятности дефолта (PD), потерь при дефолте (LGD) и коэффициента кредитного конверсии (CCF).

К классическим методам можно отнести следующие:

Логистическая регрессия — модель на основе исторических данных и характеристик заемщиков позволяет эффективно оценивать вероятность дефолта и потенциальные потери. Данный метод наиболее часто используется для построения скоринговых карт.
Линейная регрессия используется для предсказания портфельных показателей, что позволяет оценивать общие риски по кредитным портфелям.
Дополнительно для сегментирования данных применяются методы кластеризации, которые помогают выявлять группы заемщиков с похожими характеристиками.

На основе предсказаний регуляторных моделей банк может резервировать сделки и выполнять требования по достаточности регулятивного капитала, такой подход оценки рисков называется IRB (Internal Ratings-Based Approach). В таком случае, модели должны соответствовать требованиям Центрального банка и проходить валидацию независимыми отделами.

Цикл разработки риск-моделей

CRISP-DM (Cross-Industry Standard Process for Data Mining) — это распространенная методология для анализа данных. Она разбивает процесс на шесть основных этапов:

Понимание бизнеса (Business Understanding)

Определение бизнес-целей проекта и требований.
Перевод целей в постановку задачи анализа данных.
Составление предварительного плана достижения целей.

Начальное изучение данных (Data Understanding)

Сбор исходных данных.
Описание данных, проверка качества.
Первичная визуализация данных.
Выявление интересных подмножеств для дальнейшего анализа.

Подготовка данных (Data Preparation)

Отбор данных для моделирования.
Очистка данных от ошибок и шума.
Трансформация данных в нужный формат.
Объединение данных из разных источников.
Форматирование данных для инструментов моделирования.

Моделирование (Modeling)

Выбор и применение различных моделей и техник моделирования.
Калибровка параметров модели.
Оценка модели с точки зрения качества и эффективности.

Оценка (Evaluation)

Тщательная оценка модели и ее соответствия бизнес-целям.
Определение следующих шагов, основываясь на результатах.

Внедрение (Deployment)

Планирование внедрения полученных результатов в производство.
Мониторинг и поддержка внедренного решения.
Создание отчета и документирование проекта.

Последовательность этапов нельзя назвать строгой. Как правило, в большинстве проектов необходимо возвращаться к предыдущим этапам, чтобы двигаться дальше.

Работа с клиентскими данными

Для построения моделей необходима достаточная и качественная информация о заемщиках банка. Клиентские данные для оценки банковских клиентов в России могут поступать из различных источников.

Например, Бюро кредитных историй (БКИ) предоставляет информацию о кредитной истории клиентов, Федеральная служба судебных приставов (ФССП) — данные о наличии задолженностей.

Также важны данные, которые собирают и предоставляют мобильные операторы (мобильные платежи и активность счёта). Транзакционные данные могут поступать как из внешних платежных систем, так и из внутренней системы банков.

Более того, данные должны соответствовать тому же виду кредитования и экономической ситуации, для которых строится модель. Необходимо также исключить нетипичных клиентов и аномальные кредиты из исходной базы данных.

Как выглядят клиентские данные

Для примера рассмотрим данные в формате XML, который используется в кредитных отчетах. Основной элемент XML-файла называется CreditReports, и он включает в себя атрибут Version, указывающий на версию формата отчета из Бюро и Encoding — кодировка.

Сама структура документа делится на две части: заголовок файла (Header) и основные данные (Body).

В Header хранится дата отчета и ID кредитного отчета, в Body — вся информация о клиенте и о его кредитной истории, в частности:

номер договора;
сумма займа;
максимальная просрочка в днях;
максимальная сумма просрочки;
статус кредита;
дата открытия;
дата планируемого закрытия и т.д.

Пример XML-файла для кредитного отчета

Разобранный пример довольно прост, на практике же размеры кредитного отчета даже для одного заемщика могут составлять несколько мегабайт и содержать в себе сотни тысяч строк, так как хранят в себе подробную информацию о каждом платеже клиента.

Отчеты из агрегаторов данных, таких как «СПАРК-Интерфакс» включают информацию о юридических лицах и индивидуальных предпринимателях. Обычно эти данные поставляются также в формате xml, но для удобства рассмотрим интерфейсную часть:

Как видно из примера выше, банки могут получать информацию о финансовых показателях, сферах деятельности, штрафах, арбитражах, упоминаниях в СМИ и т.д.

На основе этих данных строится большое количество сложный переменных, которые впоследствии проходят этапы отбора и попадают в финальную модель.

Как оценивают банковских клиентов

Для розничных клиентов в основном используется метод WOE-биннинга, с помощью которого непрерывная числовая переменная или категориальная бьются на группы, границы которых оптимизируются по значению Information Value (IV).

Далее преобразованные переменные отбираются по степени влияния в логистическую регрессию, для этой цели используются методы корреляционного анализа и рекурсивного исключения признаков (RFE). В результате формируется скоринговая карта, которая разбивает клиентов на группы риска.

Пример скоринговой модели для физлиц

Таким образом, суммируя баллы клиента в зависимости от его принадлежности к той или иной группе по переменным, получаем итоговый скор, который и определяет рейтинг клиентов:

Итоговый скор и рейтинг клиентов

Для корпоративных клиентов применяется более сложная модель, включающая в себя финансовые, качественные и поведенческие блоки, которые обрабатываются для получения базового рейтинга клиента.

Клиенты сегментируются в зависимости от типа бизнеса: крупный, МСБ, микро или ИП. Для самых крупных клиентов, в том числе государств, используется международная оценка от рейтинговых агентств.

Также банк может использовать свою риск-шкалу, она зависит от особенностей корпоративного портфеля конкретного банка.

Сама модель состоит из блоков, а не просто из одной скоринговой карты, как в рознице. Каждый из блоков (финансовый, качественный, поведенческий) — это отдельная скоринговая модель. Для препроцессинга переменных внутри каждой модели может применяться не только биннинг, но и методы нормализации и стандартизации.

Далее полученные блоки моделей объединяются в единую базовую модель (обычно через логистическую регрессию). С помощью базовой модели рассчитывается базовый рейтинг клиента, который впоследствии ступенчато корректируется, исходя из факторов риска в корректирующим блоке.

Оценка клиентов: что делать дальше

Как только провели оценку клиентов и получили все необходимые данные, следующий шаг — реализация стратегий, основанных на этих данных. Рассмотрим поэтапно каждое действие.

Принятие решения о выдаче кредита

Анализ результатов скоринга: Используйте результаты скоринга, чтобы определить, подходит ли клиент для получения кредита. Это поможет минимизировать риски невозврата.

Критерии одобрения: Установите чёткие критерии для одобрения или отказа в кредитовании, основываясь на оценке клиента и его финансовом состоянии.

Подбор оптимальной процентной ставки

Адаптация ставок: Учитывайте уровень риска, связанный с каждым клиентом, и подбирайте процентные ставки, которые будут приемлемы как для клиента, так и для банка.

Конкурентоспособность: Анализируйте ставки конкурентов, чтобы оставаться конкурентоспособными на рынке и привлекать больше клиентов.

Определение кредитного лимита

Максимальная сумма кредита: Установите лимит по кредиту, основываясь на запрашиваемой сумме, текущей кредитной нагрузке и результатах скоринга. Это поможет избежать чрезмерного кредитования.

Пересмотр лимитов: Регулярно пересматривайте лимиты в зависимости от изменения финансового состояния клиентов и рыночной ситуации.

Резервирование сделки

Формирование резервов: Создайте резервные фонды для покрытия возможных убытков от невозвратов. Это поможет обеспечить финансовую устойчивость банка.

Мониторинг рисков: Постоянно отслеживайте риски, связанные с выданными кредитами, и корректируйте резервирование в зависимости от изменений в кредитном портфеле.

Обратная связь и улучшение процессов

Сбор отзывов: После принятия решений собирайте отзывы от сотрудников и клиентов, чтобы понять, насколько эффективны ваши процессы.

Анализ результатов: Проводите регулярный анализ выданных кредитов и их возвратности, чтобы выявить слабые места и улучшить процесс оценки клиентов.

Риск-модели, основанные на исторических данных и современных методах анализа, помогают банкам выявлять потенциальные риски и и принимать более обоснованные решения.

Внедрение машинного обучения значительно повышает эффективность анализа клиентов и построения риск-моделей. Автоматизация процессов и использование больших данных позволяют банкам оперативно реагировать на изменения рынка.

Однако важно помнить, что анализ клиентов и риск-моделей — это непрерывный процесс. Только комплексный подход, сочетающий в себе передовые технологии, работу квалифицированных специалистов и эффективные процессы, может обеспечить долгосрочную устойчивость банковского сектора.

Фото в статье предоставлены автором

Фото на обложке: valiantsin suprunovich / Getty Images

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ

Банки
Бизнес
Data Science
Колонки
Банки
Бизнес
Data Science
Колонки

Истории

Материалы по теме

Пройти курс «Маркетплейсы: с чего начать и как преуспeть»
1 Образовательный проект от Data МТС Web Services стал победителем в номинации Data Fusion в образовании На курсе преподают специалисты центра Data MWS 18 апреля 17:00
2 Топ-7 идей Data Science проектов — пет-проекты и примеры анализа данных Полезные проекты на каждый день 03 марта 18:55
3 Названы IT-профессии, на которые в России активно ищут новичков В самом начале карьеры они могут получать от 140 тысяч рублей и выше 04 августа 08:30
4 Фокус на компанию. 6 советов дата-аналитику для работы с бизнесом «Дата-аналитикам не нужно опровергать или подтверждать все гипотезы» 27 сентября 15:56