Таблица 8
Название характеристики | Обозначение | Формула | Описание |
Случайная ошибка параметра a линейной регрессии | ma | — | |
Случайная ошибка параметра b линейной регрессии | mb | — | |
t-критерий Стьюдента для параметра а | ta | Рассчитывается для оценки статистической значимости коэффициентов регрессии. Выдвигается гипотеза H0 о случайной природе показателей, то есть о незначимом их отличии от нуля. Сравнивая фактическое и табличное (критическое) значения для заданного уровня значимости, принимаем или отвергаем выдвинутую гипотезу: если | |
t-критерий Стьюдента для параметра b | tb |
Продолжение таблицы 8
Название характеристики | Обозначение | Формула | Описание |
tтабл > tфакт, то H0 отклоняется, то есть a и b не случайно отличаются от нуля и сформировались под воздействием систематически действующего фактора x, иначе — природа формирования случайна. | |||
Доверительные интервалы параметров линейной регрессии | a- tтаблma | Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может принимать и положительное, и отрицательное значение. | |
a+ tтаблma | |||
b- tтаблmb | |||
b+ tтаблmb |
Во множественной регрессии для нахождения доверительных интервалов справедливы формулы, описанные в таблице 9:
Таблица 9
Название характеристики | Обозначение | Формула | Описание |
Дисперсия остатков регрессии | s2 | ESS/(n-k) | n — число единиц совокупности, k — число неизвестных параметров. |
Дисперсия i-го коэффициента регрессии | — i-й элемент диагонали ковариационной матрицы |
Продолжение таблицы 9
Название характеристики | Обозначение | Формула | Описание |
Доверительный интервал i-го параметра множественной регрессии |
| Свойства аналогичны свойствам доверительных интервалов для парной регрессии. Табличное | |
| значение t-критерия Стьюдента выбирается для n-k степеней свободы. |
Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.
Обозначим через
соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в , как положительные примеры класса , а объекты, не входящие в , — как контрпримеры или отрицательные объекты класса , множество которых мы обозначим через . Запишем бинарный вектор наблюдений X в виде , где или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через и вероятности появления i-го дескриптора в классах и соответственно.В предположении условной независимости можно записать условные плотности распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.
Отношение правдоподобия при этом определяется выражением
.
Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию
,
где
— информационный вес k-го дескриптора, а — константа.Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:
если
, то , иначе .При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов
и неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны: