Смекни!
smekni.com

Моделирования связи структура химических соединений молекулярные свойства и биологическая акти (стр. 5 из 7)

Таблица 8

Название характеристики

Обозначение

Формула

Описание

Случайная ошибка параметра a линейной регрессии

ma

Случайная ошибка параметра b линейной регрессии

mb

t-критерий Стьюдента для параметра а

ta

Рассчитывается для оценки статистиче­ской значимости коэф­фициентов регрессии. Выдвигается гипотеза H0 о случайной природе по­казателей, то есть о не­значимом их отличии от нуля. Сравнивая факти­ческое и табличное (кри­тическое) значения для заданного уровня значи­мости, принимаем или отвергаем выдвинутую гипотезу: если

t-критерий Стьюдента для параметра b

tb


Продолжение таблицы 8

Название характеристики

Обозначение

Формула

Описание

tтабл > tфакт, то H0 отклоняется, то есть a и b не случайно отличаются от нуля и сформировались под воздействием система­тически действующего фактора x, иначе — при­рода формирования слу­чайна.

Доверительные интервалы параметров линейной регрессии

a- tтаблma

Если в границы доверительного интер­вала попадает ноль, то есть нижняя граница от­рицательна, а верхняя положительна, то оцени­ваемый параметр прини­мается нулевым, так как он не может принимать и положительное, и отри­цательное значение.

a+ tтаблma

b- tтаблmb

b+ tтаблmb

Во множественной регрессии для нахождения доверительных интервалов справедливы формулы, описанные в таблице 9:

Таблица 9

Название характеристики

Обозначение

Формула

Описание

Дисперсия остатков регрессии

s2

ESS/(n-k)

n — число единиц совокупности, k — число неизвестных параметров.

Дисперсия i-го коэффициента регрессии

— i-й элемент диагонали ковариационной матрицы


Продолжение таблицы 9

Название характеристики

Обозначение

Формула

Описание

Доверительный интервал i-го параметра множественной регрессии

Свойства аналогичны свойствам доверительных интервалов для парной регрессии. Табличное

значение t-критерия Стьюдента выбирается для n-k степеней свободы.

Модель качественного прогноза

Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.

Обозначим через

соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в
, как положительные примеры класса
, а объекты, не входящие в
, — как контрпримеры или отрицательные объекты класса
, множество которых мы обозначим через
. Запишем бинарный вектор наблюдений X в виде
, где
или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через
и
вероятности появления i-го дескриптора в классах
и
соответственно.

В предположении условной независимости можно записать условные плотности распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.

Отношение правдоподобия при этом определяется выражением

.

Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию

,

где

— информационный вес k-го дескриптора, а

— константа.

Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:

если

, то
, иначе
.

При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов

и
неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны: