Смекни!
smekni.com

Методы оценки близости допредельных и предельных распределений статистик (стр. 2 из 2)

4. Использование датчиков псевдослучайных чисел

Если же предельное распределение известно то возникает возможность изучить скорость сходимости численно методом статистических испытаний (Монте-Карло). Именно так поступила Г.В.Рыданова в своей диссертации [14], реализуя описанную выше "методологию заданной точности". ПРи этом возникли две проблемы.

Во-первых, откуда известно, что скорость сходимости монотонна? Если при данном объеме выборки различие мало, то будет ли оно мало и при дальнейших? Иногда отклонения допредельного распределения от предельного объясняются довольно сложными причинами. Так, для распределения хи-квадрат они связаны с до сих пор не решенными теоретико-числовыми проблемами о числе целых точек в эллипсоиде растущего диаметра. "Подводные камни", связанные с распределением хи-квадрат. разобраны в статье М. Мирвалиева М.С.Никулина [15].

Во-вторых, с помощью датчиков псевдослучайных чисел получаем допредельные распределения с погрешностью, которая может преуменьшать различие. Поясним мысль аналогией. Растущий сисгнал измеряется с погрешностями. Когда можно гарантировать, что его величина наверняка превзошла заданную границу? Не будем здесь обсуждать известные подходы к решению этой задачи.

Проблема качества датчиков псевдослучайных чисел продолжает оставаться открытой. В журнале "Заводская лаборатория" с 1985 г. по 1993 г. продолжалась активная дискуссия по этой проблеме, завершившаяся статьей С.М.Ермакова [16] и нашим комментарием [17] к нему. Для моделирования в пространствах фиксированной размерности датчики псевдослучайных чисел решают поставленные задачи. Но для рассматриваемых нами задач размерность не фиксирована - мы не знаем, при каком конкретно объеме выборки можно переходить к предельному распределению согласно "методологии заданной точности".

Нужны дальнейшие работы по изучению качества датчиков псевдослучайных чисел в задачах неопределенной размерности. Поскольку критиков датчиков обычно обвиняют в том, что они сами их не используют, отмечу, что мы применяли этот инструментарий при изучении помех, создаваемых электровозами [11], при изучении статистических критериев проверки однородности двух выборок [18].

5. А нужна ли вообще асимптотика?

В журнале "Заводская лаборатрия" в последние годы опубликован ряд работ Б.Ю.Лемешко. Они посвящены актуальному направлению прикладной статистики, связанному с интенсивным использованием вычислительной техники для изучения свойств статистических процедур. В диссертации Б.Ю.Лемешко [19] подводятся итоги более чем двадцатилетней (с 1973 г.) работы автора (в составе группы исследователей под руководством проф.В.И.Денисова).

Как уже отмечалось, математические методы в статистике обычно позволяют получать лишь асимптотические результаты, и для переноса выводов на конечные объемы выборок приходится применять вычислительные методы. Диссертантом разработан и успешно применяется оригинальный подход, основанный на интенсивном использовании современной вычислительной техники. Основная идея такова: в качестве альтернативы асимптотическим методам математической статистики используется анализ результатов статистического моделирования (порядка 2000 испытаний) выборок конкретных объемов (200, 500, 1000). При этом анализ предельных распределений заменяется на анализ распределений соответствующих статистик при указанных объемах выборок.

К достоинствам подхода диссертанта относится возможность замены теоретических исследований расчетами. Разработанная в исследовательском коллективе программная система дает в принципе возможность численно изучить свойства любого статистического алгоритма для любого конкретного распределения результатов наблюдений и любого конкретного объема выборки. К недостаткам подхода Б.Ю.Лемешко относится зависимость от свойств датчиков псевдослучайных чисел (проблемам качества таких датчиков посвящена упомянутая выше дискуссия в журнале "Заводская лаборатория" в 1985-1993 гг.), а также - что более важно - неизвестность предельного распределения (и даже самого факта его существования), а потому невозможность обоснованного переноса полученных выводов на объемы выборок, отличные от исследованных. Поэтому с точки зрения теории математической статистикии полученные диссертантом результаты следует пока рассматривать как правдоподобные (а не доказательные, как в классической математической статистике).

Кроме того, они принципиально неточные. Даже в наиболее благоприятных условиях отклонения смоделированного распределения от теоретического предельного, по нашей оценке, может иметь порядок (1/2000 + 1/1000)1/2 = 0,038. Это означает, в частности, что процентные точки, сответствующие уровням значимости 0,05 и особенно 0,01, рассчитанные Б.Ю.Лемешко, могут сильно отличаться от соответствующих процентных точек предельных распределений. Очевидно, следующий этап работ - изучение точности полученных в диссертации выводов, прежде всего приближений и процентных точек.

Однако сразу все не сделаешь. Поэтому Б.Ю.Лемешко совершенно прав, развивая новые компьютерные подходы к давним задачам прикладгной математической статистики. В частности, весьма полезными и интересными являются результаты, касающиеся непараметрических критериев согласия. Весьма интересным и полезным представляется также метод построения оптимального группирования, в частности, при использовании критериев типа хи-квадрат. Важен результат о неробастности (неустойчивости) оценок максимального правдоподобия по негруппированным данным. Надо поддержать идею использования одновременно двух оценок по группированным данным с использованием как оптимального, так и раввновероятного группирования. Этот подход диссертанта соответствует современным идеям в области устойчивости (робастности) статистических выводов, в частности, подходу монографии [11].

На автора данной работы большое впечатление произвела статья Б.Р.Левина и Н.О.Демидовича [20], в которой сравниваются два плана контроля надежности. Оказывается, чтопри объемах выборки, меньших 150, лучше первй план, а при больших 150 - второй. Значит, если бы по методу Б.Ю.Лемешко сравнивались эти планы при n=100, то лучшим был бы признан первый план, что неверно.

Другая относящаяся к делу ассоциация - из весьма содержательной монографии [21]. Будем суммировать бесконечный ряд с членами zn= 1/ n . Поскольку члены его убывают, то обычно используемые алгоритмы остановят вычисления на каком-то шагу. А сумма-то - бесконечна!

Итак, Б.Ю.Лемешко предложил интересный инструментарий и проделал полезную работу, но его подход никоим образом не является панацеей.

6. Необходимость скоординированных исследований

В прикладной математической статистике давно назрела необходимость координации новых исследований и критического анализа накопленных результатов. В статье [22] была сформулирована и обоснована программа превращения этой сферы научно-практических исследований в организованную отрасль науки наподобие метрологии. В статье [23] рассказано о первых шагах такой работы, предпринятой в рамках Центра статистических методов и информатики и Российской ассоциации статистических методов. К сожалению, развитие общей экономической ситуации в России ставит под сомнение не только возможность подобных нововведений, но и само существование современной науки.

Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект 97-06-80033).

Литература

1. Эльясберг П.Е. Измерительная информация. Сколько ее нужно, как ее обрабатывать? - М.: Наука, 1983. 208 с.

2. Гнеденко Б.В., Колмогоров А.Н. Предельные распределения для сумм независимых случайных величин. - М.-Л.: ГИТТЛ, 1949. 264 с.

3. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. -М.: Наука, 1979. 528 с.

4. Смирнов Н.В. / Бюлл. МГУ, Сер.А, 1939, т.2, № 2, с.3-14.

5. Гнеденко Б.В., Королюк В.С./ Докл. АН СССР, 1951, т.80, № 4, с.525-528.

6. Боровков А.А. / Изв. АН СССР, Сер. матем., 1962, т.26, с.605-624.

7. Калинин В.М. / Труды Матем. ин-та им. В.А.Стеклова АН СССР, 1968, т.104, с.88-134.

8. Калинин В.М. / Труды Матем. ин-та им. В.А.Стеклова АН СССР, 1970, т.111, с.163-194.

9. Калинин В.М., Шалаевский О.В. / Записки научн. семинаров Ленингр. отд-ния Матем. ин-та им. В.А.Стеклова АН СССР, 1972, т.26, с. 3-152.

10. Орлов А.И., Орловский И.В. / Статистические методы. Межвузовский сборник научн. трудов. - Пермь: Пермский гос. ун-т, 1978, с.100-109.

11. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

12. Методика. Проверка однородности двух выборок параметров продукции при оценке ее технического уровня и качества. Первая редакция. - М.: Всесоюзный научно-исследовательский институт стандартизации Госстандарта СССР, 1987. - 116 с.

13. Залесский Б.А., Ольшевская О.В. / Заводская лаборатория. 1989. Т. 55. №. 7. С. 103-105.

14. Рыданова Г.В. Некоторые вопросы статистического анализа случайных бинарных векторов. Автореф. дис. канд. физ.-мат. наук. - М.: 1988. - 16 с.

15. Мирвалиев М., Никулин М.С. / Заводская лаборатория. 1992. Т.58. №. 3. С. 52- 58.

16. Ермаков С.М. / Заводская лаборатория. 1993. Т. 59. №. 7. С. 48-50.

17. Орлов А.И. / Заводская лаборатория. 1993. Т. 59. №. 7. С. 51-51.

18. Камень Ю.Э., Камень Я.Э., Орлов А.И. / Заводская лаборатория. 1986. Т. 52. №. 12. С. 55-57.

19. Лемешко Б.Ю. Статистический анализ группированных, частично группированных и негруппированных наблюдений одномерных непрерывных случайных величин. Автореф. дис. докт. техн. наук. - Новосибирск: 1997. - 46 с.

20. Левин Б.Р., Демидович Н.О. / Надежность средств связи. - Киев: Технiка, 1976, с.59-72.

21. Блехман И.И., Мышкис А.Д., Пановко Я.Г. Механика и прикладная математика: Логика и особенности приложений математики. - М.: Наука, 1983. - 328 с.

22. Орлов А.И. / Заводская лаборатория. 1992. Т.58. №. 1. С. 67-74.

23. Орлов А.И. / Заводская лаборатория. 1997. Т. 63. №. 3. С. 55-62.