Таблица 6 указывает число наблюдений в том или ином кластере.
Таблица6. Number of Cases in each Cluster
Cluster | 1 | 822,000 | |
0 | 178,000 | ||
Valid | 1000,000 | ||
Missing | ,000 |
Проанализируем качество классификации.
Таблица7. Expectation-Predictable Table
Y=0 | Y=1 | всего | |
всего по выборке | 300 | 700 | 1000 |
прогноз | 178 | 822 | 1000 |
правильно | 65 | 587 | 652 |
неправильно | 235 | 113 | 348 |
% правильно | 21,7% | 83,9% | 65,2% |
% неправильно | 78,3% | 16,1% | 34,8% |
Из таблицы можно видеть, что видеть, что метод позволяет хорошо предугадывать плохие заемы на уровне 83,9%, но плохо предугадывает хорошие заемы – 21,7%. Обычно к методикам выдвигается требование распознавать лучше плохие заемы, т.к. потеря невозврата кредита больше потери неполучения процентов по кредиту.
Кластерный анализ решает задачу классификации объектов при практически отсутствующей априорной информации о наблюдениях внутри классов; в дискриминантном анализе предполагается наличие такой информации. С помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп. Ядром дискриминантного анализа является построение так называемой дискриминантной функция [2]
D=b1*x1+b2*x2+…+bn*xn+a
где х1 и х2 — значения переменных, соответствующих рассматриваемым случаям, константы x1 - xn и а — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значению дискриминантной функции можно было с максимальной четкостью провести разделение по группам.
Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Цели ДА – интерпретация межгрупповых различий - дискриминация и методы классификации наблюдений по группам.
При интерпретации мы отвечаем на вопросы: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию, и какие из них наиболее информативны.
Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими.
Реализуем метод дискриминантного анализа в SPSS. Существует 2 алгоритма классификации:
1. Одновременный учет всех независимых переменных. Результаты представлены в таблице 8
Таблица 8. Classification Results(a)
Y | Predicted Group Membership | Total | |||
0 | 1 | ||||
Original | Count | 0 | 218 | 82 | 300 |
1 | 188 | 512 | 700 | ||
% | 0 | 72,7 | 27,3 | 100,0 | |
1 | 26,9 | 73,1 | 100,0 |
a 73,0% of original grouped cases correctly classified.
В таблице 9 приведены коэффициенты дискриминантной функции
Таблица9. Canonical Discriminant Function Coefficients
Function | ||
1 | ||
Z1 | ,503 | |
Z2 | -,127 | |
Z3 | ,338 | |
Z4 | ,024 | |
Z5 | -,150 | |
Z6 | ,174 | |
Z7 | ,134 | |
Z8 | -,242 | |
Z9 | ,225 | |
Z10 | ,314 | |
Z11 | -,006 | |
Z12 | -,172 | |
Z13 | ,035 | |
Z14 | ,242 | |
Z15 | ,272 | |
Z16 | -,210 | |
Z17 | ,023 | |
Z18 | -,135 | |
Z19 | ,271 | |
Z20 | ,611 | |
(Constant) | -3,977 |
Лямбда Уилкса показывает на значимое различие групп (p < 0,001).
Таблица 10. Wilks' Lambda
Test of Function(s) | Wilks' Lambda | Chi-square | df | Sig. |
1 | ,760 | 271,399 | 20 | ,000 |
2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных.
Таблица11. Classification Results(a)
Y | Predicted Group Membership | Total | |||
0 | 1 | ||||
Original | Count | 0 | 219 | 81 | 300 |
1 | 203 | 497 | 700 | ||
% | 0 | 73,0 | 27,0 | 100,0 | |
1 | 29,0 | 71,0 | 100,0 |
a 71,6% of original grouped cases correctly classified.
Лямбда Уилкса показывает на значимое различие групп (p < 0,001).
Таблица 12. Wilks' Lambda
Test of Function(s) | Wilks' Lambda | Chi-square | df | Sig. |
1 | ,774 | 254,126 | 10 | ,000 |
В таблице 13 приведены коэффициенты дискриминантной функции
Таблица 13. Canonical Discriminant Function Coefficients
Function | ||
1 | ||
SCHET | ,528 | |
SROK | -,140 | |
HISTOR | ,315 | |
ZAIM | -,145 | |
CHARES | ,186 | |
TIMRAB | ,133 | |
VZNOS | -,240 | |
FAMIL | ,248 | |
PORUCHIT | ,372 | |
INIZAIMI | ,262 | |
(Constant) | -3,288 |
Точность распознавания дискриминантным анализом выше, чем кластерным. Но результаты по-прежнему остаются неудовлетворительными.
Дерево классификаций является более общим алгоритмом сегментации обучающей выборки прецедентов. В методе дерева классификаций сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис .1).
Рис.1. Дерево классификации
На первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) выбирается автоматически.
В рассмотренной методике также не дается ответ, насколько кредит хорош или плох. Метод не позволяют получить точную количественную оценку риска и установить допустимый риск.
Нейронные сети NN используются при определении кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками. Нейронные сети выявляют нелинейные связи между переменными, которые могут привести к ошибке в линейных моделях. NN позволяют обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2). Форма сегментов зависит от внутренней структуры NN Формулы и коэффициенты модели риска на основе NN лишены физического и логического смысла.
Рис.2. Сегменты разделения «хороших» и «плохих» объектов в NN
Нейросеть — это «черный ящик», внутреннее содержание которого (так называемые веса нейронов) не имеет смысла в терминах оценки риска. Такие методики не позволяют объяснить, почему данному заемщику следует отказать в кредите. NN-модели классификации обладают низкой стабильностью (робастностью).
В основе технологии datamining лежат алгоритмы поиска закономерностей между различными факторами в больших объемах данных. При этом анализируются зависимости между всеми факторами; но, поскольку даже при небольшом числе факторов количество их всевозможных комбинаций растет экспоненциально, в datamining применяются алгоритмы априорного отсечения слабых зависимостей [1]. Говоря терминами анализа кредитоспособности, datamining на основе данных о выданных кредитах выявляет те факторы, которые существенно влияют на кредитоспособность заемщика, и вычисляет силу этого влияния. Соответственно, чем сильнее определенный фактор влияет на кредитоспособность, тем больший балл ему присваивается в методике скоринга. Чем больше данные держателя кредитной карты похожи на данные «кредитоспособного гражданина», тем больший лимит по кредиту он может получить, тем лучшие условия ему могут быть предоставлены
Главное преимущество методик на основе datamining заключается в том, что они могут работать на малых выборках. При больших выборках их точность, робастность и прозрачность недостаточны В них также не дается ответ, насколько кредит хорош или плох Метод не позволяет получить количественную оценку риска, установить допустимый риск, назначить цену за риск и выявить вклады факторов и их градаций в риск
Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:
Y=B0+B1X1+…+BpXp+e
где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k. Традиционные названия "зависимая" для Y и "независимые" для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию. Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,σ2), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Для получения оценок
коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии: