Смекни!
smekni.com

Непараметричні методи розпізнавання з гарантованим рівнем значущості (стр. 4 из 4)

Диссертация на соискание научной степени доктора физико-математических наук по специальности 01.05.01 – теоретические основы информатики и кибернетики. - Киевский национальный университет имени Тараса Шевченко, Киев, 2008.

В диссертации разработан математический аппарат для статистического анализа экспериментальных данных и проведения дифференциальной диагностики в медико-биологических исследованиях, в основе которого лежат непараметрические методы распознавания на основе обучающих выборок. Для выявления характера экспериментальных данных предложен критерий, позволяющий различать случайные, псевдослучайные и хаотические данные. Разработана структурная модель случайного эксперимента, позволяющая установить коммутативность экспериментов на основе вероятностного изоморфизма и корректно определить операции над случайными величинами в рамках структурной модели.

В частности, предложена новая теория случайного эксперимента на основе интерпретации поля случайных событий как полуупорядоченного множества с естественным отношением упорядоченности между случайными событиями. Показано, что поле событий представляет собой атомарно порожденную полную вполне дистрибутивную булеву алгебру. Изучено распределение вероятностей на поле событий, порожденном случайными величинами. Установлено, что для непрерывных случайных величин (как рациональных, так и действительных) порождаемое ими распределение вероятностей не является счетно-аддитивной функцией событий.

Доказана гипотеза Хилла для симметрично зависимых случайных величин с абсолютно непрерывной функцией распределения. Предложены меры близости между гипотетическими и эмпирическими выборками из непрерывной или дискретной генеральной совокупности, состоящей из симметрично зависимых выборочных значений. Доказаны их преимущества над статистиками Колмогорова-Смирнова и Уилкоксона. Показано, что для p-статистики можно построить приближенные доверительные границы, соответствующие заданному уровню значимости, когда нулевая гипотеза неверна. Доказано, что p-статистика более эффективна при проверке гипотезы об эквивалентности генеральных совокупностей с одинаковыми или близкими математическими ожиданиями. Продемонстрирована высокая чувствительность p-статистики при различии выборок из разных генеральных совокупностей. Показано, что атомарная мера близости является наиболее стойкой к колебаниям объемов выборок, обеспечивая при этом высокий уровень распознавания.

Построен новый доверительный интервал для основной массы генеральной совокупности по зависимым наблюдениям. Разработаны новые статистические критерии для сравнения двух вероятностей в классической и обобщенной схемах Бернулли. Проведено теоретическое обоснование алгоритма построения доверительных эллипсов на основе гипотезы Хилла и предложена его модификация. Доказан аналог теоремы Гливенко–Кантелли для обратных модифицированных функций распределения и на ее основе предложено новое понятие однородной и неоднородной генеральной совокупности. Предложен новый метод решения проблемы о распознавании составной и смешанной выборок. Доказана практическая целесообразность и обоснованность предложенного метода распознавания.

Разработана новая теория обобщенных решения нелинейных операторных уравнений в метрических пространствах. Введено понятие обобщенного решения, почти решения, псевдорешения и существенно обобщенного решения нелинейного операторного уравнения в метрическом пространстве. Доказаны теоремы о существовании, единственности и корректности обобщенного решения. Проанализированы свойства расширения операторов и вложения пространств.

В работе продемонстрировано применение новой теории для решения практических задач. Описаны математические основы процесса распознавания и диагностики рака молочной железы на основе сканограмм интерфазных ядер ДНК клеток слизистой оболочки полости рта. Продемонстрирована эффективность дифференциальной диагностики на основе доверительных эллипсов и процедуры непринятия решения с использованием фильтрующих критериев. Проведен ретроспективный анализ степени прогностической значимости клинических, цитогенетических и морфологических показателей у больных со злокачественной меланомой. Продемонстрировано использование сплайновой регрессии и модифицированного полигона для выявления зависимости вероятности возникновения злокачественных новообразований у участников ликвидации последствий аварии на Чернобыльской атомной электростанции от поглощенной дозы радиации. Найдена точка перехода, после которой вероятность возникновения онкологических заболеваний резко снижается. Показана эффективность разработанных методов стратификационного анализа поколений клеток карциномы Герена, подвергнутых рентгеновскому облучению. Доказана эффективность стратификационного анализа при исследовании морфометрических показателей клеток из интактной популяции плоскоклеточного рака полости рта человека, интактной популяции клеток карциномы Герена у крыс, а также при анализе влияния цисплатина на интактные популяции раковых клеток в обоих случаях.

Ключевые слова: проверка гипотез, доверительный интервал, распознавание образов, мера близости, операторное уравнение, обобщенное решение.


KLYUSHIN D. A. Non-parametrical methods of recognition with guaranteed significance level. - Manuscript.

Thesis for a doctor’s degree of physics and mathematics by speciality 01.05.01 – theoretical foundations of informatics and cybernetics. - Kiev Taras Shevchenko National University, Kyiv, 2008.

Mathematical tools for solving problems arising in statistical analysis of experimental data and differential diagnostics in medical and biological investigations are developed. A lattice model of random experiment is created. Non-parametrical tests of equivalence of general populations based on proximity measures between samples are developed and studied. Non-parametrical methods of confidence valuation of a bulk of general population on dependence observations are elaborated and investigated. Statistical tests for comparing two probabilities in classical and generalized Bernoulli schemes are developed. Methods of stratified analysis are developed and investigated. A theory of generalized solutions of non-linear operator equations in metric spaces is developed. The methods suggested in the dissertation were used in medical and biological investigations, in particular, for differential diagnostics of oncological diseases on cytogenetical data; for determination of significance importance of factors and making prediction about development of a disease in patients suffering from melanoma, and for analysis of subpopulations consisting of radioresistant and chemoresistant tumor cells.

Keywords: hypothesis testing, confidence interval, pattern recognition, proximity measure, operator equation, generalized solution.