В банках используются, главным образом, следующие методики:
· Скоринговые методики;
· Кластерный анализ;
· Дискриминантный анализ;
· Дерево классификаций;
· Нейронные сети;
· Технологии Data mining;
· Линейная вероятностная регрессионная модель;
· Logit-анализ;
Приступим к описанию этих методик.
Скоринг кредитов физических лиц представляет собой методику оценки качества заемщика, основанную на различных характеристиках клиентов, таких как доход, возраст, семейное положение, профессия и др. В результате анализа переменных получают интегрированный показатель, который оценивает степень кредитоспособности заемщика по ранговой шкале: «хороший» или «плохой». Дается ответ на вопрос, вернет заемщик кредит или нет? Качество заемщика оценивается определенными баллами, отражающими степень его кредитоспособности. В зависимости от балльной оценки принимается решение о выдаче кредита и его лимитах [4].
Привлечение банками для оценки кредитоспособности квалифицированных специалистов имеет несколько недостатков: во-первых, их мнение все же субъективно; во-вторых, люди не могут оперативно обрабатывать большие объемы информации; в-третьих, оплата хороших специалистов требует значительных расходов. Поэтому банки все больше интересуются такими системами оценки риска, которые позволили бы минимизировать участие экспертов и влияние человеческого фактора на принятие решений.
Для оценки кредитного риска производится анализ кредитоспособности заемщика, под которой понимается его способность полностью и в срок рассчитаться по своим долговым обязательствам. В соответствии с таким определением основная задача скоринга заключается не только в том, чтобы выяснить, в состоянии клиент выплатить кредит или нет, но и в степени надежности и обязательности клиента.
Скоринг представляет собой математическую или статистическую модель, с помощью которой на основе кредитной истории «прошлых» клиентов банк пытается определить, насколько велика вероятность, что потенциальный заемщик вернет кредит в срок. Скоринг является методом классификации всей интересующей нас популяции на различные группы, когда нам неизвестна характеристика, которая разделяет эти группы, но зато известны другие характеристики.
В западной банковской системе, когда человек обращается за кредитом, банк располагает следующей информацией для анализа: анкетой, которую заполняет заемщик; информацией на данного заемщика из кредитного бюро, в котором хранится кредитная история взрослого населения страны; данными движения по счетам, если речь идет о клиенте банка.
Кредитные аналитики оперируют следующими понятиями: «характеристики-признаки» клиентов и «градации-значения», которые принимает признак. В анкете клиента характеристиками-признаками являются вопросы анкеты (возраст, семейное положение, профессия), а градациями-значениями— ответы на эти вопросы. В упрощенном виде скоринговая модель дает взвешенную сумму определенных характеристик. В результате получают интегральный показатель (score); чем он выше, тем выше надежность клиента (табл.3.). Интегральный показатель каждого клиента сравнивается с неким заданным уровнем показателя. Если показатель выше этого уровня, то выдается кредит, если ниже этой линии, — нет.
Сложность в том, какие характеристики-признаки следует включать в модель и какие весовые коэффициенты должны им соответствовать. Философия скоринга заключается не в поиске объяснений, почему этот человек не платит. Скоринг использует характеристики, которые наиболее тесно связаны с ненадежностью клиента. Неизвестно, вернет ли данный заемщик кредит, но известно, что в прошлом люди этого возраста, этой профессии, с таким уровнем образования и числом иждивенцев кредит не возвращали (или возвращали).
Таблица 3. Скоринговая карта
Показатель | Значение | Баллы |
Возраст | 20 - 25 | 100 |
26 - 30 | 107 | |
31 - 40 | 123 | |
………… | ………….. | |
Доход | 1000 - 3000 | 130 |
3001 - 5000 | 145 | |
5001 - 6000 | 160 | |
………… | ………….. |
Среди преимуществ скоринговых систем западные банкиры указывают в первую очередь снижение уровня невозврата кредита. Далее отмечаются быстрота и беспристрастность в принятии решений, возможность эффективного управления кредитным портфелем, определение оптимального соотношения между доходностью кредитных операций и уровнем риска.
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы однородных в некотором смысле объектов, называемых кластерами или классами. Иерархические и параллельные кластер-процедуры практически реализуемы лишь в задачах классификации не более нескольких десятков наблюдений. К решению задач с большим числом наблюдений (как в наших целях) применяют последовательные кластер-процедуры - это итерационные алгоритмы, на каждом шаге которых используется одно наблюдение (или небольшая часть исходных наблюдений) и результаты разбиения на предыдущем шаге. Идею этих процедур реализована в «SPSS» методе
средних («K-Means Clustering») с заранее заданным числом классов.Алгоритм заключается в следующем: выбирается заданное число k- точек и на первом шаге эти точки рассматриваются как "центры" кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по такому принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам. Затем заново вычисляются центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять перераспределяются объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока не стабилизируются центры.
Если данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов.
При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать для количественных переменных, расстояние хи-квадрат - для исследования частотных таблиц, имеется множество мер для бинарных переменных.
Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.
Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). (табл.4. ) Используя эту запись для объектов, определить основные виды расстояний, используемых процедуре CLUSTER:
· Евклидово расстояние
(Euclidian distance).· Квадрат евклидова расстояния
(Squared Euclidian distance)· Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.
· Мера близости - коэффициент корреляции
, где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов. Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y (таблица 4.), которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрят имеет вид корня из соответствующего показателя .· Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y. .
Кластерный анализ является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".
Проведем кластеризацию по всем 20 признакам и всем наблюдениям. В результате работы программы выводится таблица 5. (показана лишь ее часть)
Таблица 5. Cluster Membership
Case Number | Y | Cluster | Distance |
………… | … | …… | ………… |
822 | 0 | 0 | 2985,732 |
823 | 1 | 0 | 2996,715 |
824 | 0 | 0 | 3040,706 |
825 | 1 | 0 | 3054,689 |
826 | 0 | 0 | 3099,727 |
827 | 1 | 0 | 3108,674 |
828 | 1 | 1 | 3100,310 |
829 | 1 | 1 | 3053,258 |
830 | 1 | 1 | 3043,285 |
831 | 1 | 1 | 2991,286 |
………… | …… | ……… | ………… |
Столбец Y показывает, относится ли наблюдение к группе вернувших кредит “0” или навернувших “1”, столбец «Cluster» показывает принадлежность к той или иной группе наблюдения на основе кластеризации.