Смекни!
smekni.com

Моделирования связи структура химических соединений молекулярные свойства и биологическая акти (стр. 4 из 7)

Другими словами компьютерная система позволит осуществлять прогноз токсикологических параметров веществ с использованием моделей теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности являются классы опасности химических соединений.

То, есть, необходимо создать компьютерную информационно-поисковую систему, которая даст возможность в режиме диалога вести оперативный прогноз токсикологических показателей, проверять на больших выборках гипотезы о связи структуры веществ с их биологическим действием, а также анализировать сравнительную информативную ценность различных групп факторов при изучении механизмов взаимодействия веществ с живым организмом. Такая система позволит повысить достоверность получаемых научных результатов и поможет существенно снизить трудоемкость исследовательских работ за счет качественно нового их уровня.

Научный задел. Разработан математический подход классификации химических веществ по степени токсичности в острых опытах. Проведена апробация данного подхода на большом экспериментальном материале и установлены научно обоснованные границы классов опасности химических соединений. Разработана подсистема поддержки профессиональных структурно-химических баз данных и знаний. В ходе выполнения проекта в компьютерную систему нужно добавить подсистему расчета токсикологический параметров.

Таким образом, целью данной работы является создание универсальной масштабируемой компьютерной системы, предназначенной для применения на практике алгоритмов поиска и анализа отношений "структура-активность". Такая система должна поддерживать как возможности информационного поиска и навигации, так и построения баз знаний на основе имеющихся данных. Также система должна быть открытой, расширяемой и максимально гибкой, с возможностью добавления новых возможностей.

В соответствии с целью поставлены следующие задачи:

1) Разработка математически обоснованной универсальной классификации химических соединений по показателю токсичности;

2) Разработка алгоритмов и методов для качественного прогнозирования принадлежности химического соединения к заданному классу токсичности.

3) Разработка и апробация моделей для количественного прогноза показателя токсичности LD50;

4) Разработка и использование моделей для предсказания токсичности по липофильности;

5) Создание универсальной масштабируемой системы компьютерной поддержки, которая должна включать в себя:

¾ иерархию классов, обеспечивающих гибкость и универсальность в настройке и расширении приложения (framework):

¾ графический редактор структурных формул химических соединений;

¾ подсистему моделирования;

¾ подсистему хранения и информационного поиска данных;

Глава 2

Математическая модель классификации химических соединений по их различным свойствам

Известно, что в организованном сообществе элементы распределены в соответствии с гиперболическим законом, то есть:

, (3.2.I)

где Q1 — количество элементов в первом классе,r — ранг класса (r = 1…n), Q(r) — количество элементов в данном классе.

Для r=1,

. (3.2.II)

(3.2.III) , где Q — количество элементов сообщества,

(3.2.IV).

Это уравнение дает общее решение по разбиению множества из Q элементов на n классов. Отсюда необходимо найти b.

По формуле Шеннона:

(3.2.V), где H — энтропия информации, pi — вероятность попадания Qi элементов множества Q в данный класс i, или

(3.2.VI).

Предельные значения энтропии информации равны 0 и Hmax. Hmax рассчитывается по формуле Хартли: Hmax = log2(n).

По принципу структурной гармонии Шеннона получаем обобщенное золотое сечение:

(3.2.VII), или

(3.2.VIII).

Отсюда найдем H, как положительный действительный корень (по условию) полинома n+1 степени.

Подставляя (3.2.I) в формулу (3.2.VI), зная значение H, имеем:

(3.2.IX).

Значение b, положительно определенное по условию, вычисляется из (3.2.IX) одним из численных методов решения уравнений. Далее, из (3.2.III) вычисляется значение Ф. После этого, подставляя Ф в (3.2.I), получаем количество элементов в каждом классе.

Для получения пределов значений показателя, по которому организовано (упорядочено) семейство, необходимо взять значения этого показателя для первого и последнего элемента каждого класса.

Регрессионные модели и их характеристики

Уравнение линейной регрессии имеет вид: y = a + bx + e [2].

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических ŷx минимальна, то есть:

.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

.

Из этой системы следуют формулы:

.

Для расчета множественной линейной регрессии данные представляются в матричной форме [6]:

Y = Xb + e,

или

,

где матрица X называется регрессионной матрицей, вектор b — неизвестные параметры, подлежащие оцениванию, а столбец e — ошибки.

Пользуясь МНК, имеем:

.

В результате получаем выражение для оценки вектора b:

.

Соответственно, появляется модель, связывающая экспериментальные данные:

.

Как для моделей парной, так и для множественной регрессии справедливы статистические оценки, описанные в таблице 7 [2]:

Таблица 7

Название характеристики

Обозначение

Формула

Описание

Полная дисперсия

TSS

Общая сумма квад­ратов отклоне­ний зависимой перемен­ной от ее выбороч­ного значения

Часть дисперсии, необъясненная регрессией

ESS

Необъясненная сумма квадратов отклонений

Часть дисперсии, объясненная регрессией

RSS

Объясненная сумма квадратов отклонений

Коэффициент детерминации

R2

RSS/TSS

F-статистика

(критерий Фишера)

F

Оценка качества уравнения регрессии. Состоит в проверке ги­потезы H0 о статистической незна­чимости уравнения регрессии. Для этого выполняется сравнение фак­тического F (где n – число единиц совокупности, m — число пара­метров при переменных x) и таб­личного (критического) Fтабл. Fтабл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значи­мости α. Уровень значимости α — вероятность отвергнуть правиль­ную гипотезу при условии, что она верна. Обычно α принимается равным 0,05 или 0,01. Если Fтабл < F, то H0 — гипо­теза о случайной природе оцени­ваемых характеристик отклоня­ется и признается их статистиче­ская значимость и надежность. Иначе —

Продолжение таблицы 7

Название характеристики

Обозначение

Формула

Описание

признается статистиче­ская незначимость, ненадежность уравнения регрессии.

Средняя ошибка аппроксимации

Среднее отклонение расчетных данных от фактических

Для расчета доверительных интервалов параметров линейной регрессии применяются статистически оценки, приведенные в таблице 8: