Решение для кредитного скоринга в банке

Проблема

Кредитный скоринг — это ключевой процесс, позволяющий банкам точно оценивать риск дефолта клиентов и минимизировать возможные потери при выдаче кредитов. Часто банки используют традиционную методику определения дефолта: если клиент не выполняет свои обязательства по кредиту более 90 дней в течение 12 месяцев, он считается дефолтным.

В современных реалиях банк может применить несколько нейросетевых моделей для анализа различных источников данных, таких как карточные транзакции, операции по расчётным счетам и кредитные истории, с целью предсказания вероятности дефолта. Однако если объединение прогнозов этих моделей осуществляется с помощью логистической регрессии, это ограничивает гибкость системы и усложняет интеграцию новых данных.

Нейросетевые модели строятся на архитектуре рекуррентных нейронных сетей (RNN), что позволяет эффективно обрабатывать последовательности операций каждого клиента. Эти модели выполняют следующие шаги:

Для каждой последовательности данных (например, транзакции с картой) нейросеть применяет рекуррентные слои для выявления паттернов.
В результате анализа модель генерирует эмбеддинг — векторное представление, содержащее информацию о паттернах поведения клиента.
Затем этот эмбеддинг пропускается через полносвязные слои для получения предсказания о вероятности дефолта клиента на основе конкретного источника данных.

Каждая модель формирует вероятность дефолта для своего источника данных, выраженную в числовых оценках (скорах). Эти оценки объединяются с помощью логистической регрессии, что позволяет получить единый скор дефолта для каждого клиента. Часто логистическую регрессию выбирают из-за своей простоты и способности обрабатывать большое количество входных данных. Однако такой подход имеет свои ограничения: он не учитывает взаимосвязи между различными источниками данных, что снижает общую точность модели.

Решение

Для повышения точности и гибкости модели банку следует перейти к новой архитектуре, в которой все источники данных объединяются на более глубоком уровне — уровне эмбеддингов. Это позволяет лучше учитывать взаимное влияние данных из разных источников и повысить точность предсказаний дефолта.

Как и в предыдущем подходе, теперь для каждого источника данных можно использовать отдельные нейросетевые модели, где каждая генерирует эмбеддинг. Например:

Модель для карточных транзакций анализирует последовательности операций с картой и формирует эмбеддинг, отражающий поведение клиента в контексте использования карт.
Модель для транзакций по расчётному счёту изучает движения средств по счетам клиента и создаёт эмбеддинг, учитывающий его финансовую активность.
Модель для кредитных историй анализирует, например, выплаты и просрочки и генерирует эмбеддинг, содержащий информацию о прошлом кредитном поведении клиента.

Вместо традиционного метода объединения предсказаний отдельных моделей с помощью логистической регрессии, новая схема объединяет эмбеддинги, полученные от всех моделей, в единый вектор. Это позволяет более полно описать клиента:

Каждый эмбеддинг передаётся в многослойный персептрон (MLP), который преобразует их в новые векторные представления.
Новые представления из различных источников данных конкатенируются в единый общий эмбеддинг клиента, который содержит полную информацию о его финансовом поведении и истории.
Этот объединённый эмбеддинг подаётся на вход финальной нейросетевой модели, использующей его для предсказания вероятности дефолта клиента.

В модель легко интегрировать дополнительные источники данных, такие как чековые данные и информацию о социальном окружении. Эти данные добавляются в виде новых эмбеддингов, которые учитываются при формировании общего представления о клиенте. Табличные данные, такие как социальные признаки, кодируются с помощью подхода entity embeddings, что позволяет эффективно использовать категориальные признаки.

Преимущества новой схемы работы:

Глубокая интеграция данных. Вместо простого суммирования скоров новая модель учитывает взаимосвязи между различными источниками данных. Это значительно повышает точность предсказаний.
Гибкость и масштабируемость. Система позволяет легко добавлять новые источники данных, таких как чековые данные, социальные признаки и другие. Это улучшает точность модели без необходимости перерасчёта уже имеющихся данных.
Модульность. Каждый источник данных представлен отдельной моделью, что упрощает тестирование и улучшение компонентов, а также ускоряет внедрение новых данных в процесс кредитного скоринга.

Восприятие регулятором и меры для соответствия Базель III

Чтобы добиться положительной оценки от регулятора, в банке следует реализовать несколько ключевых мер для обеспечения соответствия требованиям Базель III — документа Базельского комитета по банковскому надзору, который содержит рекомендации в области банковского регулирования:

1. Объяснимость модели и прозрачность:

Нейросетевые модели часто воспринимаются как «чёрные ящики», для разрешения этой проблемы следует внедрить методы объяснимого искусственного интеллекта (XAI) и использовать подходы LIME и SHAP, которые позволяют визуализировать влияние различных факторов на предсказания модели. Это обеспечит прозрачность и возможность объяснить регулятору, как модель принимает решения о вероятности дефолта клиентов.

2. Калибровка и валидация модели:

Банку предстоит организовать регулярную калибровку модели на новых данных и ввести независимую валидацию, включая тестирование на различных сценариях и выборках данных. Это продемонстрирует регулятору стабильность и точность работы модели, особенно в условиях изменяющейся экономической среды.

3. Процессы управления модельными рисками:

Разработать строгие процедуры управления модельными рисками, включая регулярные проверки и тесты на чувствительность модели к изменениям данных и макроэкономических условий. Это позволяет снизить риски, связанные с использованием сложных моделей, и продемонстрировать регулятору, что модель контролируется и управляется в соответствии с лучшими практиками.

4. Стресс-тестирование и устойчивость к макроэкономическим шокам:

В рамках требований Базель III банку следует внедрить регулярное стресс-тестирование модели. Это позволяет оценить реакцию модели на экономические изменения, такие как кризисы или резкие колебания финансовых рынков. Результаты стресс-тестов подтвердят устойчивость модели к экстремальным сценариям.

5. Соответствие минимальным требованиям капитала (Pillar 1):

Интегрировать новую модель в процессы расчёта минимальных требований капитала, что является важной частью Pillar 1 стандартов Базель III. Результаты модели продемонстрируют, что она помогает лучше оценивать риски и, следовательно, обеспечивает более точное распределение капитала для покрытия потенциальных убытков.

6. Документирование и отчётность:

Для удовлетворения требований регулятора в банке рекомендуется организовать чёткое документирование всех процессов разработки, калибровки, валидации и использования модели. Это включает регулярные отчёты с полным описанием архитектуры, метрик качества, результатов тестов и планов по улучшению.

Результаты

Благодаря внедрению этих мер банк сможет продемонстрировать соответствие нового метода кредитного скоринга требованиям Базель III. Это позволит получить одобрение регулятора и продолжить использование модели в производственной среде, повысив точность оценки кредитного риска и увеличив прибыльность банка за счёт более эффективного управления кредитными рисками.

Технологии

Python

Java

Postgresql

Hadoop/Hive

ELK Stack (Elasticsearch, Logstash, Kibana)

Результаты

Замена логистической регрессии на нейросетевую модель на эмбеддингах может привести к приросту +1.6 пунктов Джини.

Коэффициент Джини — это метрика, которая оценивает дискриминирующую способность скоринговой модели, то есть её способность разделять различные классы, такие как «хорошие» и «плохие» наблюдения, на основе их вероятности принадлежности к определённой категории. Чем выше коэффициент Джини, тем лучше модель дискриминирует между этими классами.

Добавление новых источников данных, таких как чековые данные и социальные признаки, способно повысить прирост до +2.4 пунктов Джини.
Включение традиционных данных кредитного скоринга позволяет добавить дополнительные +3.1 пункта Джини.

Таким образом, новая схема позволит банку улучшить качество кредитного скоринга, что приведёт к значительному увеличению количества выданных кредитов при неизменном уровне риска.