Решение для кредитного скоринга в банке
Портрет целевого клиента

Банк, который стремится оптимизировать свои внутренние процессы.

Срок, необходимый для реализации решения: 7-8 месяцев.

Проблема

Кредитный скоринг — это ключевой процесс, позволяющий банкам точно оценивать риск дефолта клиентов и минимизировать возможные потери при выдаче кредитов. Часто банки используют традиционную методику определения дефолта: если клиент не выполняет свои обязательства по кредиту более 90 дней в течение 12 месяцев, он считается дефолтным.

В современных реалиях банк может применить несколько нейросетевых моделей для анализа различных источников данных, таких как карточные транзакции, операции по расчётным счетам и кредитные истории, с целью предсказания вероятности дефолта. Однако если объединение прогнозов этих моделей осуществляется с помощью логистической регрессии, это ограничивает гибкость системы и усложняет интеграцию новых данных.

Нейросетевые модели строятся на архитектуре рекуррентных нейронных сетей (RNN), что позволяет эффективно обрабатывать последовательности операций каждого клиента. Эти модели выполняют следующие шаги:

Каждая модель формирует вероятность дефолта для своего источника данных, выраженную в числовых оценках (скорах). Эти оценки объединяются с помощью логистической регрессии, что позволяет получить единый скор дефолта для каждого клиента. Часто логистическую регрессию выбирают из-за своей простоты и способности обрабатывать большое количество входных данных. Однако такой подход имеет свои ограничения: он не учитывает взаимосвязи между различными источниками данных, что снижает общую точность модели.

Решение

Для повышения точности и гибкости модели банку следует перейти к новой архитектуре, в которой все источники данных объединяются на более глубоком уровне — уровне эмбеддингов. Это позволяет лучше учитывать взаимное влияние данных из разных источников и повысить точность предсказаний дефолта.

Как и в предыдущем подходе, теперь для каждого источника данных можно использовать отдельные нейросетевые модели, где каждая генерирует эмбеддинг. Например:

Вместо традиционного метода объединения предсказаний отдельных моделей с помощью логистической регрессии, новая схема объединяет эмбеддинги, полученные от всех моделей, в единый вектор. Это позволяет более полно описать клиента:

В модель легко интегрировать дополнительные источники данных, такие как чековые данные и информацию о социальном окружении. Эти данные добавляются в виде новых эмбеддингов, которые учитываются при формировании общего представления о клиенте. Табличные данные, такие как социальные признаки, кодируются с помощью подхода entity embeddings, что позволяет эффективно использовать категориальные признаки.

Преимущества новой схемы работы:

Восприятие регулятором и меры для соответствия Базель III

Чтобы добиться положительной оценки от регулятора, в банке следует реализовать несколько ключевых мер для обеспечения соответствия требованиям Базель III — документа Базельского комитета по банковскому надзору, который содержит рекомендации в области банковского регулирования:

1. Объяснимость модели и прозрачность:

Нейросетевые модели часто воспринимаются как «чёрные ящики», для разрешения этой проблемы следует внедрить методы объяснимого искусственного интеллекта (XAI) и использовать подходы LIME и SHAP, которые позволяют визуализировать влияние различных факторов на предсказания модели. Это обеспечит прозрачность и возможность объяснить регулятору, как модель принимает решения о вероятности дефолта клиентов.

2. Калибровка и валидация модели:

Банку предстоит организовать регулярную калибровку модели на новых данных и ввести независимую валидацию, включая тестирование на различных сценариях и выборках данных. Это продемонстрирует регулятору стабильность и точность работы модели, особенно в условиях изменяющейся экономической среды.

3. Процессы управления модельными рисками:

Разработать строгие процедуры управления модельными рисками, включая регулярные проверки и тесты на чувствительность модели к изменениям данных и макроэкономических условий. Это позволяет снизить риски, связанные с использованием сложных моделей, и продемонстрировать регулятору, что модель контролируется и управляется в соответствии с лучшими практиками.

4. Стресс-тестирование и устойчивость к макроэкономическим шокам:

В рамках требований Базель III банку следует внедрить регулярное стресс-тестирование модели. Это позволяет оценить реакцию модели на экономические изменения, такие как кризисы или резкие колебания финансовых рынков. Результаты стресс-тестов подтвердят устойчивость модели к экстремальным сценариям.

5. Соответствие минимальным требованиям капитала (Pillar 1):

Интегрировать новую модель в процессы расчёта минимальных требований капитала, что является важной частью Pillar 1 стандартов Базель III. Результаты модели продемонстрируют, что она помогает лучше оценивать риски и, следовательно, обеспечивает более точное распределение капитала для покрытия потенциальных убытков.

6. Документирование и отчётность:

Для удовлетворения требований регулятора в банке рекомендуется организовать чёткое документирование всех процессов разработки, калибровки, валидации и использования модели. Это включает регулярные отчёты с полным описанием архитектуры, метрик качества, результатов тестов и планов по улучшению.

Результаты

Благодаря внедрению этих мер банк сможет продемонстрировать соответствие нового метода кредитного скоринга требованиям Базель III. Это позволит получить одобрение регулятора и продолжить использование модели в производственной среде, повысив точность оценки кредитного риска и увеличив прибыльность банка за счёт более эффективного управления кредитными рисками.

Технологии
Python
Java
Postgresql
Hadoop/Hive
Apache Spark
Elasticsearch
Apache Kafka
Airflow
TensorFlow
KubeFlow
DVC
Hugging Face
Seldon Core
Flask
Docker
Kubernetes
Prometheus и Grafana
ELK Stack (Elasticsearch, Logstash, Kibana)
Результаты

Коэффициент Джини — это метрика, которая оценивает дискриминирующую способность скоринговой модели, то есть её способность разделять различные классы, такие как «хорошие» и «плохие» наблюдения, на основе их вероятности принадлежности к определённой категории. Чем выше коэффициент Джини, тем лучше модель дискриминирует между этими классами.

Таким образом, новая схема позволит банку улучшить качество кредитного скоринга, что приведёт к значительному увеличению количества выданных кредитов при неизменном уровне риска.