Требования к статистическим пакетам общего назначения
Для того чтобы статистический пакет общего назначения был удобен и эффективен в работе, он должен удовлетворять многочисленным и весьма жестким требованиям. В частности, необходимо, чтобы он:
· содержал достаточно полный набор стандартных статистических методов;
· был достаточно прост для быстрого освоения и использования;
· отвечал высоким требованиям к вводу, преобразованиям и организации хранения данных;
· имел широкий набор средств графического представления данных и результатов обработки;
· предоставлял удобные возможности для включения в отчеты таблиц исходных данных, графиков, промежуточных и окончательных результатов обработки;
· имел подробную документацию, доступную для начинающих и информативную для специалистов-статистиков.
Наконец, немаловажное значение имеет цена пакета.
Пакеты, рассчитанные на массового пользователя, стоят дешевле, чем западные – обычно 500-1500 долларов. Эти пакеты отличаются от профессиональных, прежде всего ориентацией на индивидуального пользователя: преимущественно диалоговым режимом работы, наличием ограничений по объему обрабатываемых данных и т.д.
Отечественные статистические пакеты стоят существенно дешевле, как правило, их цена составляет от 50 до 300 долларов.
Пакет STADIA
Пакет STADIA разработан и поддерживается НПО “Информатика и компьютеры” при активном участи ведущих специалистов МГУ им. М.В.Ломоносова. Пакет содержит широкий набор методов анализа данных из всех областей статистики и доступен широкому кругу прикладных специалистов, менеджеров и студентов. Сейчас распространяется версия 6.2 для среды Windows. Пакет может появляться в трех вариантах: study, basе и рrоf, различающихся лишь объемами обрабатываемых массивов и ценой. Самый дешевый вариант study имеет максимальный объем матрицы данных в 400 чисел. Он предназначен главным образом для учебных заведений и задач с небольшими объемами данных. Самая дорогая версия STADIA 6.2 рrоf. имеет максимальный объем матрицы данных 20000 чисел и расширенные возможности статистических процедур для их обработки по сравнению с базовыми версиями. У пакета имеется бесплатная учебно-демонстрационная версия, позволяющая обрабатывать большое количество демонстрационных примеров из всех разделов статистического анализа. Эта версия также допускает ввод с клавиатуры и полную обработку данных пользователей. Однако при этом существуют ограничения на объемы вводимых данных, и отсутствует возможность сохранения введенных данных в файле. Документация пакета является одновременно детальным справочником по использованию статистических методов и может быть приобретена отдельно от пакета.
История создания системы ЭВРИСТА.
Идея создания специализированного статистического пакета по анализу и прогнозированию временных рядов возникла вначале 80-х годов на кафедре математической статистики Московского государственного университета. Главным идеологом будущей программной системы выступил старший научный сотрудник кафедры, к.ф.-м.н. Ю.Г.Баласанов. Первая версия системы ЭВРИСТА была реализована на языке ФОРТРАН для ЭВМ БЭСМ-6 и с 1984 года началось и использование системы в учебном процессе факультета.
Первая коммерческая версия системы ЭВРИСТА для персонального компьютера появилась 1987 году и ее первым покупателем стало объединение КАМАЗ (г. Набережные Челны). Несмотря на то, что первые персональные компьютеры имели слабые (особенно с нынешних позиций) графические возможности, разработчики по максимуму старались их использовать, и в результате ЭВРИСТА, одна из немногих программных систем того времени, уже имела полностью графический многооконный интерфейс.
В 1988 году Ю.Г.Баласанов и его коллеги создают специализированную статистическую группу высокопрофессиональных статистиков-программистов в СП ДИАЛОГ.
В 1991 году выходит вторая версия системы для IBM-совместимых компьютеров.
В январе 1993 года коллектив разработчиков системы ЭВРИСТА в полном составе переходит в ТОО “Центр Статистических Исследований” и все последующие версии системы выходят в рамках этой организации.
В настоящее время система ЭВРИСТА имеет более 500 зарегистрированных пользователей и по праву заслужила звание популярнейшей отечественной специализированной статистической системы по анализу и прогнозированию временных рядов. Среди наших пользователей: Центральный Банк России, Московский Сбербанк, АКБ "Гута-банк", Bank of America, Институт проблем переходного периода, Институт социологии парламентаризма, МГУ им. М.В.Ломоносова и многие другие.
С 1997 “ЭВРИСТА” - зарегистрированная торговая марка ООО “Центр Статистических Исследований” (свидетельство N 148880 комитета Российской федерации по патентам и товарным знакам (РосПатент)). Статистическая система “ЭВРИСТА” зарегистрирована как самостоятельное электронное издание ООО “Центр Статистических Исследований” (свидетельство N0114-97.1.0.RUS Серия Б. Комитета при Президенте Российской Федерации по политике информатизации).
ППП «ОЛИМП»
Пакет «Олимп» предназначен для автоматизации обработки данных на основе широкого набора современных методов прикладной статистики. Он реализован в расчете на самых разнообразных пользователей – от новичков до экспертов в области статистики.
В состав пакета, кроме основных программ, входят также электронная таблица MNCALC и программное средство «Прикладные социологические исследования (ПСИ)».
Пакет «ОЛИМП» позволяет организовать полный цикл исследований по статистическому анализу и прогнозированию данных, начиная с ввода исходных данных, их проверке и визуализации и заканчивая проведением расчетов и анализом результатов.
С функциональной точки зрения пакет состоит из следующих программ (процедур): редактора средств графического отображения и утилит преобразования данных, а также программ реализации методов статистического анализа.
Редактор данных обеспечивает возможность ввода, просмотра и редактирования исходных данных (в том числе пропущенных наблюдений).
Средства графического отображения данных позволяют выводить различные виды графиков на экран, а также сохранять их на диске для дальнейшего использования.
Утилиты преобразования данных выполняют арифметические преобразования данных (унарные и бинарные), различные виды сортировки (в том числе по нескольким переменным), агрегирование (объединение по одному признаку) и фильтрование данных (отбор по одному признаку).
Программы пакета «ОЛИМП» реализуют следующие методы статистического анализа: корреляционный, регрессионный, дисперсионный, дискриминантный, факторный и компонентный, анализ таблиц сопряженности рядов и др.
Для анализа и прогнозирования динамических данных применяются следующие методы:
· адаптивные методы прогнозирования;
· модели динамической регрессии;
· модели прогнозирования на основе линейной регрессии;
· модели гармонического, спектрального анализа и частотной фильтрации.
Каждая из перечисленных выше моделей может управляться пользователем с помощью параметров, характеризующих эту модель. Такой подход позволяет постепенно осваивать заложенные в программе возможности и облегчает работу с ней.
С помощью корреляционного анализа рассчитывается матрица парных корреляций, матрица частных корреляций, а также коэффициенты множественных корреляций.
На основе регрессионного анализа решаются следующие задачи: установление форм зависимости (положительная, отрицательная, линейная, нелинейная).
Компонентный и факторный анализ – два принципиально различных статистических метода. В программе они объединены в единый блок, поскольку такое объединение оправдано с вычислительной точки зрения.
Компонентный анализ служит для определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание явления, несущее почти всю информацию, содержащуюся в исходных данных.
Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом. В задачи факторного анализа входит: определение числа общих факторов, определение оценок общих и специфических факторов.
Анализ временных рядов включает в себя расчет статистических характеристик, анализ кривых роста по 16 функциям и некоторые адаптивные параметрические модели для анализа одномерных временных рядов.
Анализ автокорреляции динамического ряда выполняется с помощью графика автокорреляции.
Расчет кривых роста рассматривается как построение парной регрессии, в которой основной переменной является время.
Углубленный анализ предполагает использование адаптивных методов, сезонных методов прогнозирования. Для решения задач частотного анализа могут быть использованы методы частотной фильтрации, гармонического анализа, спектрального анализа.
Электронная таблица MNCALC представляет собой табличный процессор, сходный по своим функциональным возможностям с пакетами LOTUS 1-2-3 или EXCEL.
С точки зрения пользователя пакета «ОЛИМП» база данных MNCALC является таблицей, каждый столбец которой содержит переменную, а строки – значения переменных.
Преимущество MNCALC по сравнению со стандартным редактором пакета ОЛИМП заключается в том, что он позволяет отображать и редактировать сразу весь набор данных. Кроме того, в таблице могут находиться формулы, с помощью которых можно формировать новые переменные на основе существующих. Таблицы могут содержать различную текстовую информацию, позволяющую именовать переменные и комментировать наборы данных.