Ошибки ввода (набора) можно выявить следующим способом—дважды щелкнув по имени столбца в открывшемся диалоговом окне выбрать Values/Stats. Ошибки (выпадающие значение) могут попасть в минимальные или максимальные, а ошибки типа двойной запятой—выносятся в правый столбец.
Рис.2—Типы данных [7].
STATISTICA позволяет работать со всеми типами данных. В большинстве модулей анализа ППО ограничивает тип вводимых данных в соответствии с применимостью того или иного метода. Так, при работе в модуле логистической регрессии могут быть использованы только бинарные данные (кодируются 0 и 1).Статистическую обработку данных удобно разбить на следующие четыре этапа.
1. Начальная обработка, т.е. представление исходных данных в подходящей для анализа форме, и проведение проверки качества данных.
2. Предварительный анализ данных, направленный на выяснение общей формы данных и предложение путей более обстоятельного анализа. Часто такой предварительный анализ успешно проводится простыми графическими методами или путем табличного представления данных.
3. Итоговый анализ (статистическая обработка), цель которого – дать основу для выводов.
4. Представление выводов в краткой и ясной форме. Обычно это приводит к необходимости интерпретации выводов на языке рассматриваемой области исследования [6].
Любой статистический анализ начинается с определения основных параметров описательной статистики, таких как мода, медиана, значения перцентилей и т. д. вычисление параметров описательной статистики осуществляется в модуле Basic Statistics/Tables (Основные статистики и таблицы).
В модуле Basic Statistics/Tables в разделе Summary.Descriptive на вкладке Advaced позволяет вычислить следующие параметры описательной статистики:
· Valid N — общее число вариантов в выборке;
· Mean — среднее арифметическое;
· Sum - сумма всех значений вари; Median — медиана;
· Standard Deviation - среднее квадратическое отклонение выборки;
· Variance — дисперсия выборки;
· Standard error of mean — ошибка среднего арифметического;
· 95% confidence limits of mean — 95% доверительный интервал для среднего;
· Minimum & maximum — минимум и максимум;
· Lower & upper quartiles — границы 1 и 3 квартилей;
· Range — размах выборки (определяется как разность между максимальным и минимальным значениями вариантов);
· Quartile range — диапазон квартилей;
· Skewness — коэффициент асимметрии
· Kurtosis — коэффициент эксцесса
· Standard error of skewness — стандартная ошибка асимметрии
· Standard error of kurtosis — стандартная ошибка эксцесса [7].
Существует множество методов статистического анализа данных. В каждом конкретном случае можно выбрать несколько возможных вариантов анализа. Однако при несоблюдении критериев использования того или иного метода полученный результат может оказаться неточным.
Наиболее характерными являются ошибки:
· использование параметрических методов (основанных на предположении о нормальном распределении данных) для анализа данных, не подчиняющихся нормальному распределению (1);
· использование методов, предназначенных для независимых выборок, при анализе парных данных (2) [10, 11].
STATISTICA позволяет проверить описываются ли распределение признаков нормальным законом распределения (з. Гаусса). В тех случаях, если данные распределяются по какому-либо иному закону, нельзя проводить сравнение по достаточно популярным критериям Стьюдента или подсчет корреляции по методу Пирсона. Если данные являются дискретными, их сопоставление проводится по критериям c2, а непрерывные данные сопоставляются по критерию Колмогорова — Смирнова. Рассчитать критерии Колмогорова — Смирнова для нормального расправления можно в модуле Basic Statistics/Tables (Descriptive Statistics--Normality --Kolmogorov-Smirnov & Lilliefors test for normality) с помощью Frequency tables либо Histograms.
В пакете STATISTICA можно сопоставить данные не только с нормальным, но и с некоторыми другими законами распределения c помощью Distributiom fitting (в меню Statistics). Если данные являются дискретными величинами, выбор распределения проводится в разделе Discrete Distributions, если же они являются непрерывными величинами — то в разделе Continuous Distributions. Несмотря на то что критерии Колмогорова—Смирнова и c2 достаточно четко позволяют ответить на вопрос, каким законом описываются полученные данные, их недостатком является то, что при малых значениях выборки достоверность оценки снижается.
При нормальном распределении данных коэффициент асимметрии должен быть равен нулю, а коэффициент эксцесса должен быть равен трем, что является ещё одним методом проверки типа распределения.
Для выявления взаимосвязи нескольких переменных, измеряемых по порядковой или интервальной шкале коэффициент корреляции Пирсона. Этот коэффициент, как и всякий параметрический показатель, весьма подвержен влиянию значений, резко отклоняющихся от среднего [9].
Рис.3 – Влияние выпадающего значения на линейное уравнение регрессии [9].
На рисунке проиллюстрирован случай, когда высокое значение коэффициента по Пирсону обусловленным единственной «выпадающей» точкой (выделена кружком). Показана линейная регрессия с учетом этого образца (тонкая верхняяя линия) и без него (толстая нижняя линия) [9].
Более рационально использование ранговых методов— вычисления коэффициента корреляции Кендалла (для порядковых переменных/шкал) или коэффициента корреляции Спирмена — непараметрического аналога коэффициента Пирсона для интервальных и порядковых переменных, не подчиняющихся нормальному распределению. Коэффициент Пирсона равен 1 (или минус 1) тогда и только тогда, когда две переменные (х и у) связаны линейной зависимостью (у=в+ах). Коэффициент Спирмена (или Кендалла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил [9].
Следует помнить, что наличие корреляции двух переменных не означает их причинно-следственнойсвязи [8].
Существуют следующие способы сравнения двух групп по количественным признакам: вычисление доверительного интервала для разности средних или проверка гипотез (параметрическими или непараметрическими методами). В случае соответствия нормальному закону распределения переменных в каждой группе сравнение групп проводится по критериям Стьюдента (статистический модуль Basic Statistics/Tables). В противном случае - использовать непараметрические критерии, которые находятся в модуле Nonparametrics [5].
При сравнении более двух групп по количественным признакам используют однофакторный дисперсионный анализ (параметрический или непараметрический) в случае независимых групп и непараметрический метод Фридмена в случае зависимых групп. Для сравнения групп по качественным признакам используют только непараметрические критерии.
Проблема ошибочного использования методов сравнения, предназначенных для несвязанных (независимых групп), к зависимым группам отчасти решается структурой таблиц данных (размещение результатов последовательных измерений (принадлежащих к зависимым группам) в строках, а независимых—в столбец в соответствии со столбцом, содержащим код группы (Indep. (grouping) variable)). Более того, в программе пиктограммы, сопровождающие названия методов анализа носят характер подсказки: показано взаимное расположение сравниваемых массивов данных (рис.4).
Рис. 4—Список инструментов анализа с пиктограммами в модуле непараметрических методов.
При интерпретации результатов при отсутствии достоверных различий ошибочным является заключение об их отсутствии, и может быть принято только заключение о том, что различия именно не были выявлены, хотя могут и присутствовать (характерно для выборок малой численности). С другой стороны, особенно на больших выборках могут быть выявлены различия, не имеющие биологического или медицинского значения. И наоборот, даже существенное различие, выявленное при сравнении небольших групп, имеющее клиническое значение, но не быть при этом статистически значимым. Если в ходе исследования, включающего несколько больных в терминальном состоянии, хотя бы один из участников в какой-либо из групп выживет, такой результат будет клинически значимым, хотя статистически значимое различие в частоте выживания между группами может отсутствовать [11].
При проведении анализа данных часто возникает так называемая проблема множественных сравнений (ПМС), заключающаяся в следующем: чем больше статистических гипотез проверяется на одних и тех же данных, тем более вероятна ошибка первого рода — заключение о наличии различий между группами, в то время как на самом деле верна нулевая гипотеза об отсутствии различий. Так, если за уровень значимости принято значение р=0,05, то 5 из 100 вычисленных значений р в силу случайности (по теории вероятности) окажется меньше 0,05 (хотя на самом деле верна нулевая гипотеза об отсутствии различий). На практике принято считать, что учет ПМС следует начинать в тех случаях, когда число рассчитываемых значениий более 10).
В STATISTICA для уменьшения влияния множественных сравнений можно установить р на уровне 0,01 или 0,001 вместо 0,05. Считается, что такая поправка в достаточной мере компенсирует множественные парные сравнения, когда таковых избежать не удается:
1. При вторичном анализе данных.
2. При множественных парных сравнениях групп и подгрупп (по демографическим и клиническим характеристикам, исходам, временным точкам и т.д.).
3. При установлении эквивалентности групп в начале нерандомизированного исследования вмешательства.