Итак, основные недостатки скоринговой системы оценки кредитоспособности физических лиц – это:
1. Высокая стоимость адаптации используемой модели под текущее положение дел;
2. Большая вероятность ошибки модели при определении кредитоспособности потенциального заемщика, обусловленная субъективным мнением специалиста.
Для решения проблем скоринговой системы предлагаю дальше рассмотреть деревья решений, которые помогут устранить некоторые недостатки скоринговой системы.
Одним из способов решить проблемы скоринговой системы в ЗАО «Банк Русский Стандарт» это деревья решений, которые строят скоринг-модель в виде правил, и модель получается интуитивно понятной и прозрачной. При этом дерево решений способно перестраиваться при добавлении новых примеров, игнорировать несущественные признаки. Кроме того, предусмотрена ручная корректировка правил для исправления противоречий. Можно привести давно всем известную цепочку связанных событий: чем меньше рискует банк при предоставлении кредита, тем меньше процентная ставка, предлагаемая этим банком; чем меньше процентная ставка, тем больше клиентов обратится именно в этот банк; чем больше клиентов обратится в банк, тем большую прибыль получит банк, а это одна из основных целей коммерческой деятельности. Риск, связанный с не возвратом суммы основного долга и процентов, можно значительно снизить, оценивая вероятность возврата заемщиком кредита [41].
При кредитовании физических лиц характерны небольшие размеры ссуд, что порождает большой объем работы по их оформлению и достаточно дорогостоящая процедура оценки кредитоспособности относительно получаемой в результате прибыли. Для оценки кредитоспособности физических лиц банку необходимо оценить как финансовое положение заемщика, так и его личные качества. При этом кредитный риск складывается из риска не возврата основной суммы долга и процентов по этой сумме. Сейчас для оценки риска кредитования заемщика используется скоринг кредитование. Сущность этой методики состоит в том, что каждый фактор, характеризующий заемщика, имеет свою количественную оценку. Суммируя полученные баллы, можно получить оценку кредитоспособности физического лица. Каждый параметр имеет максимально возможный порог, который выше для важных вопросов и ниже для второстепенных. На сегодняшний день известно достаточно много методик кредитного скоринга. Одной из самых известных является модель Дюрана. Дюран выявил группы факторов, позволяющих максимально определить степень кредитного риска. Также он определил коэффициенты для различных факторов, характеризующих кредитоспособность физического лица:
1. Пол: женский (0.40), мужской (0)
2. Возраст: 0.1 балл за каждый год свыше 20 лет, но не более чем 0.30
3. Срок проживания в данной местности: 0.042 за каждый год, но не более чем 0.42
4. Профессия: 0.55 – за профессию с низким риском; 0 – за профессию с высоким риском; 0.16 – другие профессии
5. Финансовые показатели: наличие банковского счета – 0.45; наличие недвижимости – 0.35; наличие полиса по страхованию – 0.19
6. Работа: 0.21 – предприятия в общественной отрасли, 0 – другие
7. Занятость: 0.059 – за каждый год работы на данном предприятии
Также он определил порог, перейдя который, человек считался кредитоспособным. Этот порог равен 1.25, т. е. если набранная сумма баллов больше или равна 1.25, то потенциальному заемщику выдается испрашиваемая им сумма [31, c. 3].
Одним из вариантов решения выше поставленной задачи является применение алгоритмов, решающих задачи классификации. Задача классификации – это задача отнесения какого-либо объекта (потенциальный заемщик) к одному из заранее известных классов (Давать/Не давать кредит). Такого рода задачи с большим успехом решаются одним из методов Data Mining – при помощи деревьев решений. Деревья решений – один из методов автоматического анализа данных. Получаемая модель – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Пример дерева приведен на рисунке 22
Рисунок 22 - Пример дерева решений
Сущность этого метода заключается в следующем:
1. На основе данных за прошлые периоды строится дерево. При этом класс каждой из ситуаций, на основе которых строится дерево, заранее известен. В нашем случае должно быть известно, была ли возвращена основная сумма долга и проценты, и не было ли просрочек в платежах. При построении дерева все известные ситуации обучающей выборки сначала попадают в верхний узел, а потом распределяются по узлам, которые в свою очередь также могут быть разбиты на дочерние узлы. Критерий разбиения – это различные значения какого-либо входного фактора. Для определения поля, по которому будет происходить разбиение, используется показатель, называемый энтропия – мера неопределенности. Выбирается то поле, при разбиении по которому устраняется больше неопределенности. Неопределенность тем выше, чем больше примесей (объектов, относящихся к различным классам) находятся в одном узле. Энтропия равна нулю, если в узле будут находиться объекты, относящиеся к одному классу.
2. Полученную модель используют при определении класса (Давать/Не давать кредит) вновь возникших ситуаций (поступила заявка на получение кредита).
3. При существенном изменении текущей ситуации на рынке, дерево можно перестроить, т.е. адаптировать к существующей обстановке.
Практический пример:
Для демонстрации подобной технологии в качестве исходных данных была взята выборка, состоящая из 1000 записей, где каждая запись – это описание характеристик заемщика и параметр, описывающий его поведение во время погашения ссуды. При обучении дерева использовались следующие факторы, определяющие заемщика: "N Паспорта"; "ФИО"; "Адрес"; "Размер ссуды"; "Срок ссуды"; "Цель ссуды"; "Среднемесячный доход"; "Среднемесячный расход"; "Основное направление расходов"; "Наличие недвижимости"; "Наличие автотранспорта"; "Наличие банковского счета"; "Наличие страховки"; "Название организации"; "Отраслевая принадлежность предприятия"; "Срок работы на данном предприятии"; "Направление деятельности заемщика"; "Срок работы на данном направлении"; "Пол"; "Семейное положение"; "Количество лет"; "Количество иждивенцев"; "Срок проживания в данной местности"; "Обеспеченность займа"; "Давать кредит". При этом поля: "N Паспорта", "ФИО", "Адрес", "Название организации" определены алгоритмом уже до начала построения дерева решений как непригодные по причине практической уникальности каждого из значений.
Целевым полем является поле "Давать кредит", принимающий значения "Да" и "Нет". Эти значения можно интерпретировать следующим образом: "Нет" – плотильщик либо сильно просрочил с платежами, либо не вернул часть денег, "Да" – противоположность "Нет"
Анализируя полученное дерево решений, можно сказать следующее:
1. При помощи дерева решений можно проводить анализ значащих факторов. Такое возможно благодаря тому, что при определении параметра на каждом уровне иерархии, по которому происходит разделение на дочерние узлы, используется критерий наибольшего устранения неопределенности. Таким образом, более значимые факторы, по которым проводится классификация, находятся на более близком расстоянии (глубине) от корня дерева, чем менее значимые. Например, фактор "Обеспеченность займа" более значим, чем фактор "Срок проживания в данной местности". А фактор "Основное направление расходов" значим только в сочетании с другими факторами. Еще одним интересным примером значимости различных факторов служит отсутствие в построенном дереве параметра "Наличие автотранспорта", что говорит о том, что на сегодняшний день это наличие не является определяющим при оценке кредитоспособности физического лица.
2. Можно заметить, что такие показатели как "Размер ссуды", "Срок ссуды", "Среднемесячный доход" и "Среднемесячный расход" вообще отсутствуют в полученном дереве. Данный факт можно объяснить тем, что в исходных данных присутствует такой показатель как "Обеспеченность займа", и т.к. этот фактор является точным обобщением 4 вышеописанных показателей, алгоритм построения дерева решений выбрал именно его.
Очень важной особенностью построенной модели является то, что правила, по которым определяется принадлежность заемщика к той или иной группе, записаны на естественном языке. Например, на основе построенной модели получаются следующие правила:
1. Если обеспеченность займа = Да и срок проживания в данной местности более 5.5 лет, и возраст > 19.5 лет и наличие недвижимости = Да и наличие банковского счета = Да то Давать кредит = Да (Достоверно на 98%).
2. Если обеспеченность займа = Да и срок проживания в данной местности более 5.5 лет, и наличие недвижимости = Да и количество лет > 21.5 и срок работы на данном направлении, лет <= 5.5 и пол = Муж и наличие банковского счета = Нет и основное направление расходов = одежда, продукты питания и т.п. то давать кредит = Нет(Достоверно на 88%)
Правильно построенное на данных прошлых периодов дерево решения обладает одной еще очень важной особенностью. Эта особенность называется "способность к обобщению", т. е. если возникает новая ситуация (обратился потенциальный заемщик), то скорее всего такие ситуации уже были и достаточно много. Вследствие чего можно с большой долей уверенности сказать, что вновь обратившийся заемщик поведет себя так же, как и те заемщики, характеристики которых очень похожи на характеристики вновь обратившегося.