Как влияют отклонения от нормальности на свойства статистических процедур? Для разных процедур - разный ответ. Если речь идет об отбраковке выбросов - влияние отклонений от нормальности настолько велико, что делает процедуру отбраковки с практической точки зрения эвристической, а не научно обоснованной (см. главу 4). Если же речь идет о проверке однородности двух выборок с помощью критерия Стьюдента (при априорном предположении о равенстве дисперсий) или Крамера-Уэлча (при отсутствии такого предположения), то при росте объемов выборок влияние отклонений от нормальности убывает, как это подробно показано в главе 4). Это вытекает из Центральной Предельной Теоремы. Правда, при этом оказывается, что процентные точки распределения Стьюдента не приносят реальной пользы, достаточно использовать процентные точки предельного нормального распределения.
Весьма важна обсуждаемая, в частности, в работе [1] постоянно встающая перед эконометриком проблема выбора того или иного статистического критерия для решения конкретной прикладной задачи. Например, как проверять однородность двух независимых выборок числовых результатов наблюдений? Известны параметрические критерии: Стьюдента, Лорда; непараметрические: Крамера-Уэлча, Вилкоксона, Ван-дер-Вардена, Сэвиджа, Мартынова, Смирнова, типа омега-квадрат (Лемана-Розенблатта) и многие другие (см., например, главу 4 и справочник [5]). Какой из них выбрать для конкретных расчетов?
Некоторые авторы предлагают формировать технологию принятия статистического решения, согласно которой решающее правило формируется на основе комбинации нескольких критериев. Например, технология может предусматривать проведение "голосования": если из 5 критериев большинство "высказывается" за отклонение гипотезы, то итоговое решение - отвергнуть ее, в противном случае - принять. Эти авторы не всегда понимают, что в их подходе нет ничего принципиально нового, просто к уже имеющимся критериям они добавляют их комбинации - очередные варианты, тем или иным образом выделяющие критические области в пространствах возможных значений результатов измерений, т.е. увеличивают число рассматриваемых критериев.
Итак, имеется некоторая совокупность критериев. У каждого - свой набор значений уровней значимости и мощностей на возможных альтернативах. Математическая статистика демонстрирует в этой ситуации виртуозную математическую технику для анализа частных случаев и полную беспомощность при выдаче практических рекомендаций. Так, оказывается, что практически каждый из известных критериев является оптимальным в том или ином смысле для какого-то набора нулевых гипотез и альтернатив. Математики изучают асимптотическую эффективность в разных смыслах - по Питмену, по Бахадуру и т.д., но - для узкого класса альтернативных гипотез, обычно для альтернативы сдвига. При попытке переноса асимптотических результатов на конечные объемы выборок возникают новые нерешенные проблемы, связанные, в частности, с численным оцениванием скорости сходимости (см. главу 10). В целом эта область математической статистики может активно развиваться еще многие десятилетия, выдавая "на гора" превосходные теоремы (которые могут послужить основанием для защит кандидатских и докторских диссертаций, выборов в академики РАН и т.д.), но не давая ничего практике. Хорошо бы, чтобы этот пессимистический прогноз не вполне оправдался!
С точки зрения эконометрики и прикладной статистики необходимо изучать проблему выбора критерия проверки однородности двух независимых выборок. Такое изучение было проведено, в том числе методом статистических испытаний, и в результате был получен вывод о том, что наиболее целесообразно применять критерий Лемана-Розенблатта типа омега-квадрат (см. главу 4).
В литературе по прикладным статистическим методам, как справедливо замечает С.Г. Корнилов в работе [1], имеется масса ошибочных рекомендаций. Чего стоят хотя бы принципиально неверные государственные стандарты СССР по статистическим методам, а также соответствующие им стандарты СЭВ и ИСО, т.е. Международной организации по стандартизации. Особо выделяются своим количеством ошибочные рекомендации по применению критерия Колмогорова для проверки нормальности (см. ссылки в работе [4]). Ошибки есть и в научных статьях, и в нормативных документах (государственных стандартах), и в методических разработках, и даже в вузовских учебниках. К сожалению, нет способа оградить инженера и научного работника, экономиста и менеджера, нуждающихся в применении эконометрических и статистических методов, от литературных источников и нормативно-технических и инструктивно-методических документов с ошибками, неточностями и погрешностями. Единственный способ - либо постоянно поддерживать профессиональные контакты с квалифицированными специалистами в эконометрике, либо самому стать таким специалистом.
Как оценить достигаемый уровень значимости конкретного критерия, предусматривающего повторные проверки? Сразу ясно, что в большинстве случаев никакая современная теория математической статистики не поможет. Остается использовать современные компьютеры. Методика статистического моделирования, описанная в работе [1], может стать ежедневным рабочим инструментом специалиста, занимающегося применением эконометрических методов. Для этого она должна быть реализована в виде соответствующей диалоговой программной системы. Современные персональные компьютеры позволяют проводить статистическое моделирование весьма быстро (за доли секунд). Можно использовать различные модификации бутстрепа - одного из вариантов применения статистического моделирования (см. ниже).
Проведенное обсуждение показывает, как много нерешенных проблем стоит перед специалистом, занимающимся, казалось бы, рутинным применением стандартных статистических процедур. Эконометрика - молодая наука, ее основные проблемы, по нашему мнению, еще не до конца решены. Много работы как в сравнительно новых областях, например, в анализе нечисловых и интервальных данных (см. главы 8 и 9 выше), так и в классических.
Проблемы разработки и обоснования статистических технологий
В настоящем пункте рассматриваются проблемы практического использования эконометрических методов для системного анализа конкретных экономических данных. При этом применяются не отдельные методы описания данных, оценивания, проверки гипотез, а развернутые цельные процедуры - так называемые "статистические технологии". Понятия "статистические технологии" или "эконометрические технологии" аналогичны понятию "технологический процесс" в теории организации производства.
Статистические технологии. Поскольку термин "технология" сравнительно редко используется применительно к эконометрике и статистике, поясним суть рассматриваемой проблемы. Статистический анализ конкретных экономических данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, с точки зрения менеджера эконометрического проекта можно выделить следующие этапы:
- планирование статистического исследования (включая разработку форм учета, их апробацию; подготовку сценариев интервью и анализа данных и т.п.);
- организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы; например, после проверки адекватности линейной регрессионной модели и отклонения этой гипотезы может проверяться адекватность квадратичной модели),
- более углубленное изучение, т.е. одновременное применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок и другими численными методами;
- применение полученных статистических результатов в прикладных целях, т.е. для формулировки выводов в терминах содержательной области (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
Возможны и многие иные структуризации различных статистических технологий (см., например, аналогичную схему для процедур экспертных оценок в главе 12). Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка характеристик или параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только отдельные кирпичики, из которых складывается статистическая технология. Между тем учебники и монографии по статистике обычно рассказывают только об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования.