Как анализ данных используют в банковской сфере и почему кредитные организации предлагают худшие условия «рисковым» клиентам? Senior Data Scientist в Robofinance Алексей Хорошилов рассказывает и показывает, как строятся риск-модели в банкинге.
Банки используют анализ данных для сегментации клиентской базы в зависимости от финансового поведения и уровня дохода. Грубо говоря, анализ данных помогает получить информацию о клиентской базе банка, определить, какие группы клиентов могут иметь одинаковые потребности и предпочтения и, основываясь на эти данные, улучшать свои продукты и услуги.
Риск-модели в частности анализируют данные о кредитной истории, доходах и прочих факторах, необходимых для прогнозирования событий дефолта, потерь при дефолте, кредитной конверсии и т.д.
Таким образом, банки совершенствуют свою стратегию взаимодействия с клиентами. Банки поощряют более надежных клиентов и предлагают не самые лояльные условия более рискованным, принимая решения на основе накопленных данных.
Читайте по теме:
Кто пользуется банковскими услугами
Банки оказывают услуги как физическим, так и юридическим лицам. В некоторых случаях к клиентам банков могут относиться и государственные органы или административные единицы, представляющие интересы государства.
Какие бывают банковские риски
Банковские риски — это любые вероятные потери, которые могут возникнуть в результате неблагоприятных событий.
- Кредитные риски. Неплатежеспособность заемщика, банковский риск — последующие убытки для банка. Допускаются из-за недостаточной оценки платежеспособности клиентов или изменения экономических условий.
- Рыночные риски. Связаны с изменениями на финансовых рынках. Бывают процентные, валютные и фондовые рыночные риски. Например, процентный риск возникает из-за колебаний процентных ставок, что может повлиять на доходность активов.
- Нефинансовые риски. Операционные риски, правовые риски и риски, связанные с потерей деловой репутации. Операционные риски, например, могут быть по причине неналаженных внутренних процессов или человеческого фактора.
- Риск потери ликвидности. Невозможность банка выполнить свои обязательства в срок из-за нехватки ликвидных средств.
Что прогнозируют риск-модели в кредитных рисках
Риск-модели учитывают ряд факторов, чтобы предотвратить возможные потери, например, из-за дефолта заемщика.
Основные факторы риска, которые предсказывают риск-модели по отдельно взятым заемщикам:
- Вероятность дефолта (PD): Вероятность того, что заемщик не сможет выполнить свои обязательства в течение определенного периода времени.
- Потери в случае дефолта (LGD): Доля актива, которая теряется в случае дефолта заемщика.
- Коэффициент кредитной конверсии (CCF): Соотношение между дополнительной суммой кредита, используемой в будущем, и суммой, которая может быть востребована.
Значимость каждого фактора определяется его влиянием на вероятность наступления неблагоприятных событий и зависит от конкретной модели и ее целей.
Помимо моделей, индивидуально оценивающих клиентов, банки также используют портфельные макромодели, чтобы оценить риски, связанные с кредитованием, но уже по совокупности заемщиков.
Данные модели зависят от макропоказателей (например, ВВП и инфляция) и помогают понять, как изменения в экономике повлияют на уже рассмотренные выше факторы риска (PD, LGD, CCF). Например, рост ВВП и низкие процентные ставки часто ассоциируются с улучшением финансового состояния заемщиков, что может снизить дефолтность кредитного портфеля.
Снижение же ВВП, увеличение безработицы или увеличение базовой процентной ставки могут повысить как уровень просроченной задолженности, так и увеличить потери при дефолте, так как заемщики сталкиваются с трудностями в выплате долгов.
Риск-модели не только помогают выявлять сегменты клиентов с учетом их характеристик и поведения, но и прогнозируют доходы клиентов, их склонность к мошенничеству, моделируют вероятность отклика клиентов на предложения и вероятность их оттока.
Риск-модели постоянно совершенствуются для повышения точности прогнозов и принятия более обоснованных решений в условиях неопределенности.
ML-модели для управления рисками
Методы ML помогают более точно предсказывать значения PD, LGD и CCF.
Для вышеупомянутых задач часто применяются классические методы машинного обучения, в частности для моделей вероятности дефолта (PD), потерь при дефолте (LGD) и коэффициента кредитного конверсии (CCF).
К классическим методам можно отнести следующие:
- Логистическая регрессия — модель на основе исторических данных и характеристик заемщиков позволяет эффективно оценивать вероятность дефолта и потенциальные потери. Данный метод наиболее часто используется для построения скоринговых карт.
- Линейная регрессия используется для предсказания портфельных показателей, что позволяет оценивать общие риски по кредитным портфелям.
- Дополнительно для сегментирования данных применяются методы кластеризации, которые помогают выявлять группы заемщиков с похожими характеристиками.
На основе предсказаний регуляторных моделей банк может резервировать сделки и выполнять требования по достаточности регулятивного капитала, такой подход оценки рисков называется IRB (Internal Ratings-Based Approach). В таком случае, модели должны соответствовать требованиям Центрального банка и проходить валидацию независимыми отделами.
Цикл разработки риск-моделей
CRISP-DM (Cross-Industry Standard Process for Data Mining) — это распространенная методология для анализа данных. Она разбивает процесс на шесть основных этапов:
Понимание бизнеса (Business Understanding)
- Определение бизнес-целей проекта и требований.
- Перевод целей в постановку задачи анализа данных.
- Составление предварительного плана достижения целей.
Начальное изучение данных (Data Understanding)
- Сбор исходных данных.
- Описание данных, проверка качества.
- Первичная визуализация данных.
- Выявление интересных подмножеств для дальнейшего анализа.
Подготовка данных (Data Preparation)
- Отбор данных для моделирования.
- Очистка данных от ошибок и шума.
- Трансформация данных в нужный формат.
- Объединение данных из разных источников.
- Форматирование данных для инструментов моделирования.
Моделирование (Modeling)
- Выбор и применение различных моделей и техник моделирования.
- Калибровка параметров модели.
- Оценка модели с точки зрения качества и эффективности.
Оценка (Evaluation)
- Тщательная оценка модели и ее соответствия бизнес-целям.
- Определение следующих шагов, основываясь на результатах.
Внедрение (Deployment)
- Планирование внедрения полученных результатов в производство.
- Мониторинг и поддержка внедренного решения.
- Создание отчета и документирование проекта.
Последовательность этапов нельзя назвать строгой. Как правило, в большинстве проектов необходимо возвращаться к предыдущим этапам, чтобы двигаться дальше.
Работа с клиентскими данными
Для построения моделей необходима достаточная и качественная информация о заемщиках банка. Клиентские данные для оценки банковских клиентов в России могут поступать из различных источников.
Например, Бюро кредитных историй (БКИ) предоставляет информацию о кредитной истории клиентов, Федеральная служба судебных приставов (ФССП) — данные о наличии задолженностей.
Также важны данные, которые собирают и предоставляют мобильные операторы (мобильные платежи и активность счёта). Транзакционные данные могут поступать как из внешних платежных систем, так и из внутренней системы банков.
Более того, данные должны соответствовать тому же виду кредитования и экономической ситуации, для которых строится модель. Необходимо также исключить нетипичных клиентов и аномальные кредиты из исходной базы данных.
Как выглядят клиентские данные
Для примера рассмотрим данные в формате XML, который используется в кредитных отчетах. Основной элемент XML-файла называется CreditReports, и он включает в себя атрибут Version, указывающий на версию формата отчета из Бюро и Encoding — кодировка.
Сама структура документа делится на две части: заголовок файла (Header) и основные данные (Body).
В Header хранится дата отчета и ID кредитного отчета, в Body — вся информация о клиенте и о его кредитной истории, в частности:
- номер договора;
- сумма займа;
- максимальная просрочка в днях;
- максимальная сумма просрочки;
- статус кредита;
- дата открытия;
- дата планируемого закрытия и т.д.
Пример XML-файла для кредитного отчета
Разобранный пример довольно прост, на практике же размеры кредитного отчета даже для одного заемщика могут составлять несколько мегабайт и содержать в себе сотни тысяч строк, так как хранят в себе подробную информацию о каждом платеже клиента.
Отчеты из агрегаторов данных, таких как «СПАРК-Интерфакс» включают информацию о юридических лицах и индивидуальных предпринимателях. Обычно эти данные поставляются также в формате xml, но для удобства рассмотрим интерфейсную часть:
Как видно из примера выше, банки могут получать информацию о финансовых показателях, сферах деятельности, штрафах, арбитражах, упоминаниях в СМИ и т.д.
На основе этих данных строится большое количество сложный переменных, которые впоследствии проходят этапы отбора и попадают в финальную модель.
Как оценивают банковских клиентов
Для розничных клиентов в основном используется метод WOE-биннинга, с помощью которого непрерывная числовая переменная или категориальная бьются на группы, границы которых оптимизируются по значению Information Value (IV).
Далее преобразованные переменные отбираются по степени влияния в логистическую регрессию, для этой цели используются методы корреляционного анализа и рекурсивного исключения признаков (RFE). В результате формируется скоринговая карта, которая разбивает клиентов на группы риска.
Пример скоринговой модели для физлиц
Таким образом, суммируя баллы клиента в зависимости от его принадлежности к той или иной группе по переменным, получаем итоговый скор, который и определяет рейтинг клиентов:
Итоговый скор и рейтинг клиентов
Для корпоративных клиентов применяется более сложная модель, включающая в себя финансовые, качественные и поведенческие блоки, которые обрабатываются для получения базового рейтинга клиента.
Клиенты сегментируются в зависимости от типа бизнеса: крупный, МСБ, микро или ИП. Для самых крупных клиентов, в том числе государств, используется международная оценка от рейтинговых агентств.
Также банк может использовать свою риск-шкалу, она зависит от особенностей корпоративного портфеля конкретного банка.
Сама модель состоит из блоков, а не просто из одной скоринговой карты, как в рознице. Каждый из блоков (финансовый, качественный, поведенческий) — это отдельная скоринговая модель. Для препроцессинга переменных внутри каждой модели может применяться не только биннинг, но и методы нормализации и стандартизации.
Далее полученные блоки моделей объединяются в единую базовую модель (обычно через логистическую регрессию). С помощью базовой модели рассчитывается базовый рейтинг клиента, который впоследствии ступенчато корректируется, исходя из факторов риска в корректирующим блоке.
Читайте также: Что такое эквайринг, и зачем он нужен бизнесу?
Оценка клиентов: что делать дальше
Как только провели оценку клиентов и получили все необходимые данные, следующий шаг — реализация стратегий, основанных на этих данных. Рассмотрим поэтапно каждое действие.
Принятие решения о выдаче кредита
Анализ результатов скоринга: Используйте результаты скоринга, чтобы определить, подходит ли клиент для получения кредита. Это поможет минимизировать риски невозврата.
Критерии одобрения: Установите чёткие критерии для одобрения или отказа в кредитовании, основываясь на оценке клиента и его финансовом состоянии.
Подбор оптимальной процентной ставки
Адаптация ставок: Учитывайте уровень риска, связанный с каждым клиентом, и подбирайте процентные ставки, которые будут приемлемы как для клиента, так и для банка.
Конкурентоспособность: Анализируйте ставки конкурентов, чтобы оставаться конкурентоспособными на рынке и привлекать больше клиентов.
Определение кредитного лимита
Максимальная сумма кредита: Установите лимит по кредиту, основываясь на запрашиваемой сумме, текущей кредитной нагрузке и результатах скоринга. Это поможет избежать чрезмерного кредитования.
Пересмотр лимитов: Регулярно пересматривайте лимиты в зависимости от изменения финансового состояния клиентов и рыночной ситуации.
Резервирование сделки
Формирование резервов: Создайте резервные фонды для покрытия возможных убытков от невозвратов. Это поможет обеспечить финансовую устойчивость банка.
Мониторинг рисков: Постоянно отслеживайте риски, связанные с выданными кредитами, и корректируйте резервирование в зависимости от изменений в кредитном портфеле.
Обратная связь и улучшение процессов
Сбор отзывов: После принятия решений собирайте отзывы от сотрудников и клиентов, чтобы понять, насколько эффективны ваши процессы.
Анализ результатов: Проводите регулярный анализ выданных кредитов и их возвратности, чтобы выявить слабые места и улучшить процесс оценки клиентов.
Риск-модели, основанные на исторических данных и современных методах анализа, помогают банкам выявлять потенциальные риски и и принимать более обоснованные решения.
Внедрение машинного обучения значительно повышает эффективность анализа клиентов и построения риск-моделей. Автоматизация процессов и использование больших данных позволяют банкам оперативно реагировать на изменения рынка.
Однако важно помнить, что анализ клиентов и риск-моделей — это непрерывный процесс. Только комплексный подход, сочетающий в себе передовые технологии, работу квалифицированных специалистов и эффективные процессы, может обеспечить долгосрочную устойчивость банковского сектора.
Фото в статье предоставлены автором
Фото на обложке: valiantsin suprunovich / Getty Images
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Наличка: как использовать, чтобы не нарушить 115-ФЗ»
- 1 Названы IT-профессии, на которые в России активно ищут новичков
- 2 Фокус на компанию. 6 советов дата-аналитику для работы с бизнесом
- 3 3 задачи по ML, чтобы подготовиться к собеседованию на Junior Data Scientist
- 4 Стартует онлайн-чемпионат по анализу данных с призовым фондом 1 млн рублей
ВОЗМОЖНОСТИ
15 ноября 2024
15 ноября 2024
15 ноября 2024