Известно, что наиболее компактное кодирование последовательности это кодирование наиболее часто встречающихся символов. Таким образом, модель, имеющая наибольшую вероятность для последовательности, имеет наименьшую стоимость для целевого класса значений. В битах, это сумма
, где – предсказанная вероятность для строки , сопоставленная модели.Таким образом, для задачи определения ключевых атрибутов мы имеем следующий порядок выполнения действий с исходными данными.
После того, как модель построена, и произведен ее анализ, мы можем делать выводы о том, насколько сильно влияет каждый атрибут на целевой атрибут, а также делать выводы о необходимости использования тех или иных атрибутов для построения предсказательной модели.
Классификация коллекции заключается в делении примеров, составляющих коллекцию, на категории или классы. В контексте data mining, классификация это модель, использующая «исторические» данные. Цель задачи классификации – наиболее точно предсказать класс для каждой записи в новых данных, то есть, данных нет в исторических данных.
Классификационная задача начинается с построения данных (также известных как обучающие данные) для каждого целевого значения, которое известно. Различные алгоритмы классификации используют различные техники для поиска взаимоотношений между значениями предсказывающих атрибутов и целевым атрибутом. Эти взаимоотношения обобщаются в модели, и теперь модель может быть применена к новым кейсам, у которых не известно значение целевого атрибута. Классификационная модель также может быть применена к данным, у которых значение целевого атрибута известно для сравнения известного целевого атрибута. Такие данные также известны как тестовые данные или оценочные данные. Техника сравнения называется тестированием модели, которая показывает точность предсказания модели. Классификация используется для сегментации заказчиков, бизнес – моделирования, анализа кредитов, и в других приложениях.
Регрессионная модель похожа на задачу классификации. Различие между задачами регрессии и классификации в том, что регрессия имеет дело с числовыми атрибутами, в то время как классификация имеет дело с дискретным набором атрибутов. Другими словами, целевой атрибут может принимать непрерывное число значений.
Для построения модели как классификации, так и регрессии, используется алгоритм Support Vector Machine (SVM).
Алгоритмы классификации и регрессии под общим названием SVM во многих случаях успешно заменили нейронные сети и в данное время применяются очень широко.
Как можно заметить, для решения этой задачи достаточно провести плоскость, равноудаленную от ближайших друг к другу точек, относящихся к разному классу. На рисунке такими точками являются точки eиd. Данный метод интерпретирует объекты (и соответствующие им в пространстве точки) как векторы размера
. Другими словами, независимые переменные, характеризующие объекты, являются координатами векторов. Ближайшие друг к другу векторы, относящиеся к разным классам, называются векторами поддержки (support vectors).Формально данную задачу можно описать как поиск функции, отвечающей следующим условиям:
для некоторого конечного значения ошибки
Если
линейна, то ее можно записать в виде:где
— скалярное произведение векторов и ; — константа, заменяющая коэффициент .Введем понятие плоскости функции таким образом, что большему значению плоскости соответствует меньшее значение евклидовой нормы вектора
:Тогда задачу нахождения функции
можно сформулировать следующим образом — минимизировать значение при условии:Решением данной задачи является функция вида:
где
, и , — положительные константы, удовлетворяющие следующим условиям:Константа
задает соотношение между плоскостью функции и допустимым значением нарушения границы .Несмотря на то, что рассмотрен случай с линейной функцией
, метод SVM может быть использован и для построения нелинейных моделей[4]. Для этого скалярное произведение двух векторов необходимо заменить на скалярное произведение преобразованных векторов: .Функция
называется ядром.Тогда выражение для решения задачи можно переписать в виде:
.Отличие от линейного варианта SVM здесь в том, что
теперь находится не непосредственно, а с использованием преобразования . Необходимо также заметить, что при создании нелинейных моделей с использованием метода SVM не выполняется прямое, а затем обратное преобразование объектов из нелинейного в линейное пространство. Преобразование заложено в самой формуле расчета, что значительно снижает вычислительные затраты.Вид преобразования, а точнее функция
, может быть различного типа и выбирается в зависимости от структуры данных. В таблице приведены основные виды функций классификации, применяемых в SVM-методе.Ядро | Название |
Линейная | |
Полиномиал степени | |
Базовая радиальная функция Гаусса | |
Сигмоидальная |
К достоинствам метода SVM можно отнести следующие факторы: