Смекни!
smekni.com

Стохастическое моделирование и прогноз загрязнения атмосферы с использованием нелинейной регрессии (стр. 2 из 5)

2. МЕТОДОЛОГИЯ РЕШЕНИЯ

2.1 Модель

Регрессионный анализ — это эффективный метод, который позволяет анализировать значительные объемы информации с целью исследования вероятной взаимосвязи двух или больше переменных.

В регрессионном анализе рассматривается связь между одной, зависимой, переменной и несколькими другими независимыми переменными. Эта связь представляется с помощью математической модели, то есть уравнением, которое связывает зависимую переменную с независимыми. В рамках регрессионного анализа модель представляется в виде:

, (3)

где СМАХ – предиктант (в нашем случае максимальная концентрация рассматриваемой примеси за сутки), Xi – предикторы (в качестве предикторов используют различные метеорологические характеристики и концентрации других загрязняющих примесей), а bi – коэффициенты регрессии, которые требуется оценить.

Регрессионный анализ используется по двум причинам.

1. Описание зависимости между предикторами и предиктантом помогает установить наличие возможной причинной связи.

2. Получение аналитической зависимости между переменными дает возможность предсказывать будущие значения СМАХ по значениям предикторов.

Успешное применение этого математического аппарата требует выполнение двух условий:

1. Функции распределения переменных (предиктанта и каждого из предикторов) подчиняются нормальному случайному закону.

2. Форма связи между переменными должна быть близкой к линейной.

2.2 Алгоритм

Предварительный этап разработки прогностической схемы состоит в подготовке исходного ряда данных:

1. Ряд разбивается на «обучающую» и «независимую» выборки. В данной работе прогностическая модель загрязнения атмосферы разрабатывается с использованием длительного ряда данных наблюдений. Две трети ряда рассматриваются, как «обучающая» выборка для построения прогностической схемы, а оставшаяся одна треть применяется для проверки её эффективности на независимом материале (т.е. как «независимая» выборка). К «независимой выборке» относятся данные наблюдений, соответствующие неделям года с номерами, кратными трём (т. е. третья, шестая, девятая и т.д. недели). Остальные данные относятся к «обучающей» выборке.

2. По «обучающей» выборке строится функция распределения суточных максимумов концентраций и определяется её 60-ый процентиль С60.

3. Устанавливается граничное значение СГР для прогноза суточных максимумов, которое принимается равным С60.

Прогноз CMAX осуществляется по следующим правилам:

1. Если максимальная за предыдущие сутки C’MAX концентрация была ниже СГР, то прогнозируемая максимальная концентрация на очередные сутки CMAXПРОГ принимается равной C’MAX(«инерционный прогноз»).

2. Если максимальная за предыдущие сутки C’MAX концентрация была выше или равна СГР, то прогноз осуществляется с использованием прогностических схем.

Применение метода линейной регрессии требует, чтобы корреляционные связи между предиктантом с каждым из предикторов были близки к линейным, однако это условие не всегда выполняется. Для исключения нелинейности связей предикторы нужно преобразовать с помощью кривых зависимости показателя загрязнения воздуха от отдельных метеопараметров, построенных по использованному для разработок материалу наблюдений. При этом каждое значение предиктора меняется на соответствующее ему среднее значение характеристики загрязнения.

- Для каждой градации предиктора (их должно быть не менее 5) рассчитать среднее значение CMAX. При недостаточном количестве случаев в одной из градаций, она объединяется с соседних. Таким образом, получаем набор точек с абсциссами M(CMAX) и ординатами, соответствующими серединам отрезков осреднения.

- Построить график кусочно-линейной функции, у которой полученные точки являются угловыми.

- Каждому значению преобразованного предиктора сопоставляется значение кусочно-линейной функции в соответствующей точке.

Связь преобразованных таким образом предикторов с предиктантом в значительной степени линеаризуется. Этот прием позволяет учесть реальный вид связи в каждом конкретном случае. Он близок к так называемому «кусочно-линейному» преобразованию, применяемому при построении моделей для прогноза погоды.

При возникновении трудностей, связанных с тем, что данные, подчиняющиеся какому-нибудь несимметричному распределению, должны быть подвергнуты анализу, теория которого разработана в основном для нормального распределения, можно преобразовать эмпирическое распределение в нормальное («нормализовать переменные») и затем продолжить анализ на базе известной теории.

Для нормализации переменных используется стандартное преобразование выборочной функции распределения в нормальную (гауссову) со средним, равным 0, и стандартным отклонением, равным 1. Это преобразование осуществляется по формуле

, (4)

где Ф-1(t) – обратная функция к функции распределения нормальной случайной величины со средним значением ноль и стандартным отклонением единица, а F(x) - выборочная функция распределения рассматриваемой случайной величины X.

Задача с преобразованными предикторами решается методом многомерной пошаговой регрессии. На каждой итерации этого метода ищется предиктор, имеющий наибольшую связь с предиктантом. Таким образом определяются наиболее значимые предикторы, которые следует включить в уравнение регрессии.

Если значимыми оказались два предиктора, соответствующие двум срокам измерения одного и того же метеорологического параметра, то в уравнение регрессии включается тот, который больше связан с предиктантом. В итоге должны остаться 4 – 7 наиболее информативных предикторов, связь которых с предиктантом наиболее значима.

Данный вид анализа позволяет включать в схему только те факторы, которые имеют значимую корреляцию с показателями загрязнения. Применение такого аппарата также обусловлено тем, что нет никакой гарантии, что между используемыми предикторами отсутствует тесная корреляционная связь. Если же такая связь существует, то соответствующая система уравнений метода наименьших квадратов, используемая для определения коэффициентов в уравнении регрессии, оказывается плохо обусловленной, а ее решение может привести к накоплению вычислительных ошибок. После того как определены параметры bi, получаем стохастическую модель процесса, которая может быть для краткости представлена в виде:


, (5)

Здесь [Xi] –преобразованные предикторы, I– количество использованных предикторов, b0 и bi – коэффициенты регрессии. Значения b0 и biопределяется с помощью метода наименьших квадратов. По этому уравнению рассчитываются прогностические значения максимальной концентрации загрязняющей примеси.

Из значений Смах и Смахпрог, полученных с использованием прогностических уравнений по зависимому и независимому рядам, формируется таблица результатов прогноза. Рассчитываются статистические характеристики эффективности прогноза максимальной концентрации примеси.

Эффективность разработанных прогностических схем проверяется по зависимым (использованным для построения уравнения регрессии) и независимым (не использовавшимся для построения уравнения регрессии) данным наблюдений.

Оправдываемость индивидуального прогноза максимальной концентрации примеси Смахпрог за конкретные сутки оценивается путем сопоставления этой прогностической концентрации с определенной по данным наблюдений фактической максимальной за сутки концентрацией Смах. Прогноз считается оправдавшимся, если при Смах > ПДК выполняется условие:

, (6)

или если при Смах

ПДК выполняется условие

, (7)

где ПДК - установленная Минздравом РФ максимальная разовая предельно допустимая концентрация примеси в атмосферном воздухе населенных мест.

2.3 Описание методов

1. Нахождение СГР.

n-й процентиль - это такое значение, ниже которого расположено n процентов наблюдений рассматриваемой переменной. График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:

, k = 0…M-1, (8)

где M – объём выборки, а k – порядковый номер события в упорядоченном по возрастанию массиве. Как известно, то α-квантиль однозначно задаётся уравнением: F(xα) = α. Значит за 60 процентиль можно принять элемент с порядковым номером k = 0.6M (округление производим в большую сторону).

2. Нормализации.

Нормализация осуществляется по формуле:

, (9)

График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:


, k = 0…M-1, (10)

Так как при k = 0 F(Xk) обращается в ноль, то [Xk] становится равным минус бесконечности, что является нежелательным, заменим формулу (10) на:

, k = 0…M-1. (11)