Оценивание плотностей распределения представляет собой классическую задачу, решаемую в математической статистике. А именно, пусть имеется повторная выборка (то есть, последовательность независимых одинаково распределенных случайных величин)
с плотностью распределения p(x). Необходимо построить оценку функции p(x). Известно много методов решения этой задачи, например, метод максимального правдоподобия, байесовские методы оценивания, непараметрические оценки плотностей.Схема обучения распознавания в таком случае строится следующим образом. Обучающая выборка разбивается на подвыборки, соответствующие отдельным классам. Оцениваются плотности распределений для каждого класса
и априорные вероятности классов . Полученные оценки подставляются в байесовское решающее правило (1.2), которое и используется для классификации. Рассмотрим подробно такой метод решения задачи распознавания, как парзеновские оценки плотностей.Методы оценивания, в которых не делается предположений об аналитическом виде неизвестной плотности, называются непараметрическими.
Пусть
- повторная выборка с плотностью p(x). Парзеновская оценка плотности p(x) есть функция , (2.1)где k(y) – некоторая заданная функция, называемая ядром оценки (2.1),
- неотрицательная числовая последовательность.Если ядро k(y) удовлетворяет условиям
то (2.1) есть плотность распределения.
Докажем следующие теоремы:
Теорема (2.1):
Пусть выполнены условия на ядро k и
:Если функция p(x) непрерывна в точке х, то
геометрический распознавание непараметрический парзеновский
Доказательство.
Рассмотрим величину:
Справедлива формула:
Разобьем здесь область интегрирования на два множества
и - произвольное положительное число.Первое слагаемое не превосходит величины
а второе не превосходит
Отсюда следует, что
Устремляя n к бесконечности, получаем в силу условий (2.2)-(2.4) получаем:
а так как
может быть взято произвольно малым, то это и означает сходимость .Теорема доказана.
Теорема (2.2).
Пусть х – точка непрерывности плотности p(x) и выполнены условия теоремы (2.1). тогда
- асимптотически несмещенная оценка величины p(x), то естьЕсли, кроме того
то
- состоятельная оценка, то естьДоказательство.
Соотношение (2.5) непосредственно следует из теоремы (1).
Справедливо равенство
второе слагаемое в правой части стремиться к нулю при
.Введем обозначения:
;тогда
а так как
- независимые одинаково распределенные случайные величины, тоПри больших n:
Так как функция
удовлетворяет условиям теоремы (2.1), тоТеорема доказана.
При N=1 следующие функции удовлетворяют условиям (2.7)
Многомерные ядра могут быть получены из одномерных следующим образом:
,где x – вектор с компонентами
. Условия (2.4), (2.6) выполнены для последовательностей видагде а – некоторая константа.
2.2 Исследование парзеновских оценок плотностей на практике
В данном исследовании была поставлена задача смоделировать повторную выборку, соответствующую плотности распределения
(
) и применить к ней парзеновскую оценку, а также сравнить графически найденную оценку с истинной плотностью.Работа выполняется в пакете MicrosoftExcel, так как этот пакет один из наиболее пригодных для решения подобных задач.
На интервале [-4;9] с шагом 0,2 построим графическое изображение истинного значения плотности распределения по заданной нам функции при
.Полученный результат представлен на рис. 1:
Рис. 1. График заданной плотности распределения
Для оценивания ее строим повторную (обучающую) выборку, соответствующую данной плотности распределения. В качестве ядра k(y) выберем функцию
Проверим, удовлетворяет ли при N=1 функция
условиям теорем (2.1) и (2.2).(a)
где а – некоторая константа,
(b)
,(c)
(d) Функция непрерывна во всех точках х
,(e)
.Таким образом, условия теорем выполнены, и оценка является асимптотически несмещенной оценкой величины p(x) (в силу условий (а)-(d)), то есть
и состоятельной оценкой (в силу условий (а)-(е)), то есть
В зависимости от выбора множителя
оценки будут принимать различный вид. Графики сравнения оценки с истинным значением функции при различных представлены на рис. 2-5.Рис. 2. График сравнения оценки плотности распределения с ее истинным значением при
Рис. 3. График сравнения оценки плотности распределения с ее истинным значением при