Известно, что наиболее компактное кодирование последовательности это кодирование наиболее часто встречающихся символов. Таким образом, модель, имеющая наибольшую вероятность для последовательности, имеет наименьшую стоимость для целевого класса значений. В битах, это сумма
Таким образом, для задачи определения ключевых атрибутов мы имеем следующий порядок выполнения действий с исходными данными.
После того, как модель построена, и произведен ее анализ, мы можем делать выводы о том, насколько сильно влияет каждый атрибут на целевой атрибут, а также делать выводы о необходимости использования тех или иных атрибутов для построения предсказательной модели.
Классификация коллекции заключается в делении примеров, составляющих коллекцию, на категории или классы. В контексте data mining, классификация это модель, использующая «исторические» данные. Цель задачи классификации – наиболее точно предсказать класс для каждой записи в новых данных, то есть, данных нет в исторических данных.
Классификационная задача начинается с построения данных (также известных как обучающие данные) для каждого целевого значения, которое известно. Различные алгоритмы классификации используют различные техники для поиска взаимоотношений между значениями предсказывающих атрибутов и целевым атрибутом. Эти взаимоотношения обобщаются в модели, и теперь модель может быть применена к новым кейсам, у которых не известно значение целевого атрибута. Классификационная модель также может быть применена к данным, у которых значение целевого атрибута известно для сравнения известного целевого атрибута. Такие данные также известны как тестовые данные или оценочные данные. Техника сравнения называется тестированием модели, которая показывает точность предсказания модели. Классификация используется для сегментации заказчиков, бизнес – моделирования, анализа кредитов, и в других приложениях.
Регрессионная модель похожа на задачу классификации. Различие между задачами регрессии и классификации в том, что регрессия имеет дело с числовыми атрибутами, в то время как классификация имеет дело с дискретным набором атрибутов. Другими словами, целевой атрибут может принимать непрерывное число значений.
Для построения модели как классификации, так и регрессии, используется алгоритм Support Vector Machine (SVM).
Алгоритмы классификации и регрессии под общим названием SVM во многих случаях успешно заменили нейронные сети и в данное время применяются очень широко.
|
Как можно заметить, для решения этой задачи достаточно провести плоскость, равноудаленную от ближайших друг к другу точек, относящихся к разному классу. На рисунке такими точками являются точки eиd. Данный метод интерпретирует объекты (и соответствующие им в пространстве точки) как векторы размера
Формально данную задачу можно описать как поиск функции, отвечающей следующим условиям:
для некоторого конечного значения ошибки
Если
где
Введем понятие плоскости функции таким образом, что большему значению плоскости соответствует меньшее значение евклидовой нормы вектора
Тогда задачу нахождения функции
Решением данной задачи является функция вида:
где
Константа
Несмотря на то, что рассмотрен случай с линейной функцией
Функция
Тогда выражение для решения задачи можно переписать в виде:
Отличие от линейного варианта SVM здесь в том, что
Вид преобразования, а точнее функция
Ядро | Название |
| Линейная |
| Полиномиал степени |
| Базовая радиальная функция Гаусса |
| Сигмоидальная |
К достоинствам метода SVM можно отнести следующие факторы: