Смекни!
smekni.com

Дальневосточное отделение (стр. 3 из 3)

3.5 Библиотека исходных текстов на языке Фортран для статистического анализа данных

В настоящее время в библиотеку исходных текстов на языке Fortran включены следующие программные средства:

- Вычисление линейного тренда.

- Кросс-корреляция для временных рядов.

- Расчет аномалий для временных рядов.

- Расчет кумулятивных аномалий для временных рядов.


4 Описание компонент

4.1 Подготовка исходных данных

Компонента «Подготовка исходных данных» разделяется по видам данных.

4.1.1 Сеточные данные температуры поверхности океана (ТПО

Технология подготовки временных рядов ТПО соответствующих узлам сетки включает в себя следующие этапы:

1) Выборка подмножества данных, удовлетворяющего заданным условиям, из совокупности последовательных наборов данных (для массивов временных рядов ТПО - НАDLEY SST(1891-2007), JMA SST (1996-2007). Этап необходим из-за громадного объема исходных данных соответствующего узлам сетки всего Мирового океана.

2) Приведение исходных данных к виду, пригодному для ввода в БД.

Эти функции реализована на языке Фортран.

4.1.2 Данные климатических индексов

Все временные ряды климатических индексов, перечисленных выше, взяты с различных интернетовских сайтов, в табличном виде, поэтому легко заносятся в БД, подвергаясь минимальной обработке в среде EXCEL.

4.1.3 Данные метеонаблюдений на метеостанциях

Технология подготовки ежесуточных метеонаблюдений на метеостанциях мира включает в себя следующие этапы:

- выборка метеостанций соответствующих акватории Японского моря и прилегающих акваторий

- первичная обработка исходных данных, включая перевод данных в метрическую систему;

- запись данных в базу.

В соответствии с этим разработаны программные средства на языке Фортран для этого раздела технологии:

- отбор данных наблюдений по заданным координатам (станции по району, станции стандартных разрезов и др.) и за определенный период времени;

- проведение преобразования данных в метрическую систему.

После проведения всех вышеперечисленных процедур, данные загружаются в БД.

4.1.4 Данные наблюдений за стоком рек и ледовитостью морей

Технология подготовки данных наблюдений за стоком рек и ледовитостью морей включает в себя следующие этапы:

- преобразование форматов исходных данных;

- восполнение пропусков данных;

- запись в БД.

Все программные средства (ПС) этого блока технологии разделяются на отдельные ПС, которые преобразуют данные и производят запись в БД.

4.2. Специальные средства агрегирования данных

Специальные средства включают спектральный, кластерный, корреляционный анализ, сглаживание временных рядов

Спектральный анализ

В рамках данной технологии для агрегирования данных с применением спектрального анализа использовался пакет Statistica. Цель анализа - разложить комплексные временные ряды с циклическими компонентами на несколько основных синусоидальных функций с определенной длиной волн. Применялся алгоритм быстрого преобразования Фурье. Вычислялись дисперсии данных на соответствующей частоте (периодограммы) [5,6,7].

Кластерный анализ

В рамках данной технологии для агрегирования данных методом кластеризации использовался пакет Statistica [5,6,7]. Кластерный анализ включает в себя набор различных алгоритмов классификации. В результате кластеризации заданная совокупность объектов A1,...,An агрегируется в небольшое количество групп – кластеров X1,...,XR. В кластерном анализе объединение объектов в группы производится, исходя из их сходства или различия, которое оценивается степенью близости объектов, выражаемой некоторой метрикой в признаковом пространстве. Кластер определяется, как совокупность точек, лежащих на расстоянии не больше, чем r от некоторого "центра тяжести" в m–мерном пространстве (внутри гиперсферы радиуса r или гиперкуба со сторонами 2r).

В данной технологии применен метод иерархический кластерного анализа. Сущность иерархического метода заключается в том, что кластеризация начинается с рассмотрения отдельных объектов (например, кривых годового хода), и постепенно происходит их упорядочение в отдельные группы – кластеры, которые, в свою очередь, также могут образовать новые кластеры. Алгоритм использует меру сходства – расстояние в двумерном (X,Y) Евклидовом пространстве.

В качестве основного метода иерархического кластерного анализа был принят метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге[5,6,7].

Корреляционный анализ

В рамках данной технологии для агрегирования данных методом корреляционного анализа [5,6,7] использовались пакет Statistica и специальные программы на Фортране.

4.3 Подготовка выходной информации

Выходная продукция подготавливается в табличном виде как результат запроса к БД, а в графическом виде и табличном виде как результат работы специальных пакетов или в виде тематических карт.


5 Описание применения

5.1 Технологический процесс

Весь технологический процесс получения комплекта расчетных характеристик представляется в виде цепочки выполняемых функций технологии:

I. При помощи различных пакетов обработки данных (Фортран, Exel и т.п) проводится формирование исходных данных согласно описанной ранее модели данных.

II. В среде СУБД PARADOX осуществляется:

- ввод данных в БД;

- формулировка запроса к БД;

- обработка запроса и получение нужной совокупности данных;

- агрегирование данных: временное (получение месячных, сезонных, годовых статистических характеристик) и/или пространственное (увеличение размера сетки или относительно района исследования);

- получение расчетных характеристик на основе исходных данных ( плотность морской воды, скорость звука и т.п.);

- формирование выходных таблиц в форме пригодной для их дальнейшего использования в пакетах Surfer, Statistica, Origin, Exel, Fortran.

III. В среде пакетов Statistica, Origin, Exel, Fortran реализуется:

- получение вероятностных оценок временных рядов;

- получение вероятностных оценок полей временных рядов оценок (Fortran);

- получение мощности спектров временных рядов (Statistica);

- получение сглаженных временных рядов фильтрами различной мощности (Origin, Statistica);

- применение кластерного анализа для совокупности временных рядов (Statistica);

- применение корреляционного анализа для совокупности временных рядов (Statistica Fortran);

-получение выходной продукции в табличном виде или графическом виде (Statistica, Origin, Exel).

IV. В среде пакета Surfer создаются тематические карты по гидрометеорологическим параметрам.

5.2 Условия применения

Обязательными условиями применения технологии агрегирования являются:

- наличие действующих компонент технологии;

- наличие необходимых информационных ресурсов;

- соответствие поставленной пользователем задачи функциональности технологии.


6 Документация технологии

Документация на технологию подготовлена в соответствии с основными требованиями ЕСИМО и включает в себя настоящий документ. Этот документ содержит общие сведения о построении технологии, ее составляющих, методах и средствах функционирования. Он предназначен для использования в ТОИ ДВО РАН, являющимся организацией - поставщиком данных и информации в ЕСИМО.


СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Документация на информационные технологии ЕСИМО. Требования к содержанию и оформлению. – Обнинск: ГУ «ВНИИГМИ-МЦД». – 2006. – с.29.

2. Закон РФ «Об интеллектуальной собственности».

3. Мейер Д. Теория реляционных баз данных. М.: Мир.1987. 608 c.

4. Дмитриева Е.В., Ростов И.Д. Информационные ресурсы и технологии реализации баз океанографических данных в Дальневосточном регионе России. Новости ЕСИМО". Обнинск: изд. ВНИИГМИ-МЦД, вып. 16. 2003. 27 с.

5. http://www.kti.ru/data/103/modules/sttimser.html.

6. Боровиков В.П. STATISTICA: искусство анализа данных на компьютере. СПб.: Питер, 2003. 650 с.

7. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.


Лист изменений

№ п/п

Дата внесения изменений

Номер раздела, пункта, в который вносится изменение

Номер страницы, на которой вносится изменение

Содержание внесенного изменения

Подпись

Должность, Ф.И.О.