Классическая статистика математическая лучше всего представлена в [2,4]. По историческим причинам основные российские работы публикуются в [3]. Обзор современного состояния статистики математической дан в [6].
Статистика объектов нечисловой природы - раздел математической статистики, в котором статистическими данными являются объекты нечисловой природы, т.е. элементы множеств, не являющихся линейными пространствами. Объекты нечисловой природы нельзя складывать и умножать на число. Примерами являются результаты измерений в шкалах наименований, порядка, интервалов; ранжировки, разбиения, толерантности и другие бинарные отношения; результаты парных и множественных сравнений; люсианы, т.е. конечные последовательности из 0 и1; множества; нечеткие множества. Необходимость применения объектов нечисловой природы возникает во многих областях научной и практической деятельности, в том числе и в социологии. Примерами являются ответы на "закрытые" вопросы в эконометрических, маркетинговых, социологических анкетах, в которых респондент должен выбрать одну или несколько из фиксированного числа подсказок, мили измерение мнений о привлекательности (товаров, услуг, профессий, политиков и др.), проводимое по порядковой шкале. Наряду со специальными теориями для каждого отдельного вида объектов нечисловой природы в статистике объектов нечисловой природы имеется и теория обработки данных, лежащих в пространстве общей природы, результаты которой применимы во всех специальных теориях.
В статистике объектов нечисловой природы классические задачи математической статистики - описание данных, оценивание, проверку гипотез - рассматривают для данных неклассического типа, что приводит к своеобразию постановок задач и методов их решения. Например, из-за отсутствия линейной структуры в пространстве, в котором лежат статистические данные, в статистике объектов нечисловой природы математическое ожидание определяют не через сумму или интеграл, как в классическом случае, а как решение задачи минимизации некоторой функции. Эта функция представляет собой математическое ожидание (в классическом смысле) показателя различия между значением случайного объекта нечисловой природы и фиксированным элементом пространства. Эмпирическое среднее определяют как результат минимизации суммы расстояний от нечисловых результатов наблюдений до фиксированного элемента пространства. Справедлив закон больших чисел: эмпирическое среднее сходится при увеличении объема выборки к математическому ожиданию, если результаты наблюдений являются независимыми одинаково распределенными случайными объектами нечисловой природы и выполнены некоторые математические "условия регулярности".
Аналогичным образом определяют условное математическое ожидание и регрессионную зависимость. Из доказанной в статистике объектов нечисловой природы сходимости решений экстремальных статистических задач к решениям соответствующих предельных задач вытекает состоятельность оценок в параметрических задачах оценивания параметров и аппроксимации, а также ряд результатов в многомерном статистическом анализе. Большую роль в статистике объектов нечисловой природы играют непараметрические методы, в частности, методы непараметрической оценки плотности и регрессионной зависимости в пространствах общей природы, в том числе и в дискретных пространствах.
Для решения многих задач статистики объектов нечисловой природы - нахождения эмпирического среднего, оценки регрессионной зависимости, классификации наблюдений и др. - используют показатели различия (меры близости, расстояния, метрики) между элементами рассматриваемых пространств, вводимые аксиоматически. Так, в монографии [7] аксиоматически введено расстояние между множествами. Принятое в теории измерений как части статистики объектов нечисловой природы условие адекватности (инвариантности) алгоритмов анализа данных позволяет указать вид средних величин, расстояний, показателей связи и т.д., соответствующих измерениям в тех или иных шкалах. Методы построения, анализа и использования классификаций и многомерного шкалирования дают возможность сжать информацию и дать ей наглядное представление. К статистике объектов нечисловой природы относятся методы ранговой корреляции, статистического анализа бинарных отношений (ранжировок, разбиений, толерантностей), параметрические и непараметрические методы обработки результатов парных и множественных сравнений. Теория люсианов (последовательностей независимых испытаний Бернулли) развита в асимптотике растущей размерности.
Статистика объектов нечисловой природы как самостоятельный раздел прикладной математической статистики выделена в монографии [7]. Обзору ее основных направлений посвящен, например, сборник [8]. Ей посвящен раздел в энциклопедии [2].
Статистика интервальных данных (СИД) - раздел статистики объектов нечисловой природы, в котором элементами выборки являются интервалы в R, в частности, порожденные наложением ошибок измерения на значения случайных величин. СИД входит в теорию устойчивости (робастности) статистических процедур (см. [7]) и примыкает к интервальной математике (см. [9]). В СИД изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. (см.[10-13]).
Развиты асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования (см. [14]), включающая расчет двух основных характеристик СИД - н о т н ы (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и р а ц и о н а л ь н о г о о б ъ е м а в ы б о р к и (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 [15] и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы СИД в основных постановках регрессионного, дискриминантного и кластерного анализов (см. [16]).
Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. [15, 17]). Нецелесообразно с целью повышения точности выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.
Многим задачам классической математической статистики могут быть поставлены в соответствие задачи СИД, в которых элементы выборок - действительные числа заменены на интервалы. В статистическое программное обеспечение включают алгоритмы СИД, "параллельные" их аналогам из классической математической статистики. Это позволяет учесть наличие погрешностей у результатов наблюдений.
Организационная работа в статистическом наблюдении
Успех любого статистического наблюдения зависит не только от тщательности методологической подготовки, но и от правильного и своевременного решения широкого спектра организационных вопросов.
Важнейшее место в организационной работе занимает подготовка кадров, в процессе которой проводятся различного рода инструктажи с сотрудниками статистических органов, с организациями, представляющими данные, по вопросам заполнения статистических документов, подготовки материалов наблюдения к автоматизированной обработке и т. д.
Если проведение наблюдения связано с большими затратами трудовых ресурсов, то для регистрации сведений в период проведения обследований привлекаются лица из числа неработающих (в том числе безработные) и некоторых категорий учащихся (студенты высших учебных заведений, учащиеся старших курсов техникумов). При проведении переписи населения таких лиц называют счетчиками. Обычно организуется обучение временного персонала. Оно проводится для выработки навыков правильного заполнения статистических формуляров счетчиками.
Размножение документации самого обследования, документации для проведения инструктажей и рассылка их республиканским, краевым, областным комитетам и управлениям статистики также относятся к организационным вопросам наблюдения.
В период подготовки большая роль отводится массово-разъяснительной работе: проведению лекций, бесед, организации выступлений в печати, по радио и телевидению о значении, целях и задачах предстоящего обследования.
Для согласования деятельности всех служб, занятых подготовкой и проведением наблюдения, целесообразно составить календарный план, представляющий собой перечень (наименование) работ и сроки их исполнения отдельно для каждой организации, занятой в проведении обследования.
Формы статистического наблюдения.
На этапе подготовки обследования нужно выяснить, как часто оно будет проводиться, будут ли обследоваться все единицы совокупности или только часть их, как получать информацию об объекте (путем интервью по телефону, по почте, простым наблюдением и т. п.). Другими словами, - необходимо определить формы, способы и виды статистического наблюдения.