- агрегирование данных как результат применении спектрального, корреляционного анализа;
- построение тематических карт;
- графическое представление результатов агрегирования.
2.2 Перечень объектов автоматизации
К объектам автоматизации технологии в первую очередь относятся данные по морской природной среде, а также используемые программные средства, как коммерческого происхождения, так и специально разработанные для нужд технологии агрегирования
2.2.1 Комплексная база данных
Комплексная база данных технологии содержит разнообразные данные по морской природной среде, полученных с помощью разработанных программных средств усвоения данных из различных источников, состоящих из временных рядов, полей метеорологических и океанографических характеристик для Японского моря и района северо-западной Тихоокеанской окраинной зоны.
Использовались следующие классы исходной информации, включающей данные метеорологических и океанографических наблюдений, глобальные поля ТПО и атмосферных характеристик, индексы атмосферной и океанической циркуляции, числа Вольфа солнечной активности:
Класс данных «Температура поверхности океана» представлен тремя источниками:
(1) НАDLEY SST –среднемесячными значениями ТПО за период с 1870 - 2006 гг. на одноградусной сетке по всему мировому океану (http://hadobs.metoffice.com/);
(2) JMA SST - среднемесячными значениями ТПО за период с 1848 - 2000 гг. на одноградусной сетки по району :15º -60º с.ш., 111º -180º в.д.;
(3) JMA SST - среднесуточными значениями ТПО за период с 1996 по 2006 гг. на четверть градусной сетки по району:20º -60º с.ш., 111º -160º в.д. (http://near-gos1.jodc.go.jp/cgi-bin/1997/near_goos_catalog).
Класс данных «Значения температуры, солености скорости звука в узлах сетки на стандартных горизонтах» представлен сеточным массивом данных по модели GDEM (Глобальный массив климатических данных по температуре, солености и скорости звука - GDEM (Generalized Digital Environmental Model, Version 2.5, 1998)(http://128.160.23.42/gdemv/gdemv.html).
Класс данных «Солнечная активность» представлен числами Вольфа - ежедневными значениями с 1860- 2006 гг. (http://sidc.oma.be/sunspot-data).
Класс данных «Расходы рек» представлен:
(1) среднемесячными значениями стока реки Амур в Хабаровске и поселке Богородское, расположенном вблизи устья, с 1896 -2004 гг.;
(2) значениями стока реки Раздольная в устье за теплый (безледовый) и холодный (ледовый) периоды годы с 1930-2003 гг.
Класс данных «Морской ледяной покров» представлен:
(1) среднемесячными значениями сплоченности ледяного покрова с 1870- 2006 гг. (http://hadobs.metoffice.com);
(2) среднедекадными значениями ледовитости Охотского моря (1957-2004 гг.) и Татарского пролива Японского моря с 1960 -2004 гг., среднемесячными значениями за 1929-1960 гг. (Крындин, 1964, Столярова, 1977).
Класс данных «Метеорологические наблюдения» представлен:
(1) среднесуточными значениями температуры воздуха, осадков, скорость ветра, атмосферного давления по метеорологических станциях с 1994 - 2006 г.
(hftp://ftp.ncdc.noaa.gov/pub/data/globalsod );
(2) среднемесячными значениями температуры воздуха на метеостанциях мира (периоды наблюдений до 2006г.);
(3) среднемесячными значениями давления в центре сибирского антициклона с 1891-2006 гг.
Класс данных «Климатические индексы системы океан – атмосфера» представлены средними месячными значениями шести климатических индексов:
(1) Leading PC of monthly SST anomalies in the North Pacific Ocean (PDO) с 1900-2006 гг. (http://jisao.washington.edu/pdo/PDO.latest);
(2) Arctic Oscillation (АO) - 1899-2002 г; и 1950-2006 г. (http://www.atmos.colostate.edu/ao/Data);
(3) Multivariate ENSO Index (MEI) с 1950-2006 г. (http://www.cdc.noaa.gov/people/klaus.wolter/MEI/table.htmll);
(4) North Pacific Index (NPI) – 1899-2006 г. (http://www.cgd.ucar.edu/cas/jhurrell/indices.data.html#nam);
(5) Southern Oscillation Index (SOI) с1864-2006 г. (http://www.bom.gov.au/climate/glossary/soi.shtml);
(6) Aleutian Low Pressure Index (ALPI) с 1900- 2004 г.
Класс данных «Поля атмосферного реанализа» представлен средними месячными значениями атмосферных осадков и давления на уровне моря, зональной и меридиональной составляющими скорости ветра, температуры воздуха, заданными в узлах 2.5 градусной сетки за период 1948-2006 г. (Источник NCEP NCAR).
Класс данных «Океанографические наблюдения (съемки)» представлен интегрированными базами океанографических данных ТОИ (http://www.pacificinfo.ru).
2.2.2 Программные средства технологии
2.2.2.1 Коммерческие программные продукты
Коммерческие программные продукты, используемые в технологии агрегирования (помимо операционной системы) включают в себя:
- систему управления базами данных (СУБД) Paradox 11 (разработчик – фирма Correl, США);
- программный пакет Microsoft Office Excel 2003 (разработчик – фирма Microsoft);
- программное средство построения тематических карт Surfer 8.0 (разработчик – фирма Golden Software, США);
- программное средство анализа данных и вычисления статистических характеристик временных рядов Statistica (разработчик – фирма StatSoft, США);
- программное средство для графического отображения и анализа временных рядов OriginPro ((разработчик – фирма OriginLab Corporation);
- Microsoft developer Studio 4.0 и компилятор языка Фортран фирмы Microsoft.
2.2.2.2. Специально разработанные программные продукты
Технология включает следующие специально разработанные программные приложения:
- программы выборки подмножества данных, удовлетворяющего заданным условиям, из совокупности последовательных наборов данных (для массивов временных рядов НАDLEY SST, JMA SST);
- программы переформатирования данных различных форматов атмосферных индексов для загрузки в СУБД;
- пакет программных средств, состоящий из отдельных процедур расчета статистических оценок вероятностных характеристик для полей временных рядов;
- программы формирования выходной продукции в стандартном виде.
2.3 Перечень функций, реализуемых технологией
Технология агрегирования ориентирована на выполнение отдельных технологических этапов:
- формирование ведение специализированной базы данных;
- формулировка условий запроса к БД и его выполнения в среде БД;
- получение производных расчетных характеристик;
- получение мощностей спектров временных рядов;
- восполнение отсутствующих данных во временных рядах;
- фильтрация данных окнами различного размера;
- расчет стандартных статистик;
- получение вероятностных оценок;
- кластеризация совокупности временных рядов;
- получение выходной продукции в табличном виде;
- формирование выходной продукции технологии в графическом виде;
- создание тематических карт по гидрометеорологическим параметрам.
Вся функциональность технологии в основном основана на различных программных продуктах, включенных в технологию (п.2.2.2).
3 Описание технологии
3.1 Общая схема функционирования технологии
Общая функционально-логическая схема технологии агрегирования данных состоит из следующих основные компонентов:
1) Подготовка входной информации в табличном виде согласно модели данных.
2) Ввод данных в БД.
3) Работа с множеством взаимосвязанных таблиц в среде СУБД в том числе:
1. Получение справочной информации запроса к БД.
2. выборка необходимого подмножества данных.
3. агрегирование данных как по временной шкале, так и по статистическим аспектам.
4. подготовка выходной продукции в табличном виде, пригодном для ввода с специализированные пакеты анализа данных – Surfer, Statisica, Excel, OrignPro, программами Фортрана.
4) Статистическая обработка, фильтрация, кластерный и корреляционный анализ.
5) Подготовка выходной продукции в табличном виде.
6) Подготовка выходной продукции в виде тематических карт.
3.2 Общая структура технологии
Структура технологии такова, что отдельные технологические звенья выполняются независимо и общее согласование проводится только на уровне входных - выходных информационных потоков
3.3 Назначение компонент технологии
К «независимым» относится раздел компоненты «Подготовка входной информации в табличном виде согласно модели данных». По отдельным схемам выполняются блоки по видам, т.е. отдельно отрабатывается ветка океанографических данных, отдельно – метеоданных и т.п. Блок ввода данных стандартизован и реализован в виде СУБД-приложения на коммерческом программном продукте.
Получение справочной информации о составе и количественных характеристиках базы данных, выборка необходимого подмножества данных, агрегирование данных как по временной шкале (сезонной, годовой), так и по статистическим аспектам (средние, минимальные, максимальные) организовано как результат работы специального запроса по образцу.
Для статистической обработки, фильтрации, кластерного и корреляционного анализа данные выбираются из БД, далее независимо выполняется содержательная обработка пакетами Statistica/Excel/Origin (пожеланию), затем преобразованные данные по необходимости заносятся в базу.
Подготовка выходной продукции в табличном виде отрабатывается независимым программным приложением, входные данные забираются из базы, затем преобразуются в специальные структуры формата *.csv.
Для получения выходной продукции в графическом виде или в виде тематических карт используется один из предлагаемых независимых программных продуктов
3.4 Программы стандартизованной статистической обработки, спектрального, корреляционного и кластерного анализа данных
Простейшие виды агрегирования, такие как получения среднемесячных, сезонных, среднегодовых пространственных осреднений, легко осуществляются в среде СУБД Paradox.
Программы стандартизованной статистической обработки, спектрального, корреляционного и кластерного анализа данных входят в состав предлагаемых пакетов статистического анализа данных, таких как Statistica, Excel, OriginPro. В рамках данной технологии они выполняются для анализа небольшой (до 40 единиц) совокупности временных рядов. Для анализа совокупности временных рядов (полей) соответствующих, например, узлам одноградусной сетки Японского моря и прилегающих к нему акваторий, используются специальные программы, написанные на Фортране или пакет Matlab (например спектральный анализ временных рядов, соответствующих узлам одноградусной сетки для Японского моря).