ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Медицинский институт
Кафедра гигиены, общественного здоровья и здравоохранения
( зав. кафедрой к.м.н. А.П. Дмитриев)
МЕТОДЫ ИЗУЧЕНИЯ КОРРЕЛЯЦИОННЫХ СВЯЗЕЙ
Учебно-методическое пособие для студентов
(VШ семестр)
г. Пенза, 2005.
Информационный лист:
Учебно-методическое пособие “Методы изучения корреляционных связей.” подготовлено кафедрой гигиены, общественного здоровья и здравоохранения Пензенского государственного университета (заведующий кафедрой, к.м.н. Дмитриев А.П.).
В составлении принимали участие: к.м.н. Зубриянова Н.С. , Дмитриев А.П. (ответственный за подготовку Зубриянова Н.С.).
Учебно-методическое пособие подготовлено в соответствии с «Программой по общественному здоровью и здравоохранению ” для студентов лечебных факультетов высших медицинских учебных заведений”, разработанной Всероссийским учебно-научно-методическим Центром по непрерывному медицинскому и фармацевтическому образованию Минздрава России и УМЦпкп и утвержденной Руководителем департамента образовательных медицинских учреждений и кадровой политики Н.Н. Володиным в 2000 г.
Данное Учебно-методическое пособие подготовлено для студентов для самостоятельной подготовки к практическим занятиям по указанной теме.
Тема: Методы изучения корреляционных связей
Вопросы:
- Корреляционный анализ (основные понятия)
- Коэффициент парной корреляции
- Ранговый коэффициент (Спирмена)
- Определение тесноты связи между качественными признаками (коэффициенты Шарлье, Юла, Пирсона)
Продолжительность занятия: 4 часа
Самостоятельная работа: лабораторная работа №7
Теоретическая часть
В различных областях медицины, биологии, организации здравоохранения, социально-гигиенических и клинических исследованиях проводятся статистический анализ связей, изучение закономерностей и влияющих факторов.
Существуют два вида проявления количественных взаимосвязанностей между признаками (явлениями, факторами) – функциональные и корреляционные.
При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной. Такие зависимости наблюдаются в математике и физике. Различные измерительные приборы основаны на функциональной зависимости (высота ртутного столбика дает однозначный ответ о температуре).
Корреляционные или статистические связи, при которых численному значению одной переменной соответствует много значений другой переменной. Пример, между ростом и весом детей существует бесспорная зависимость, но это не значит, что определенному росту строго соответствует определенный вес. В силу участия в формировании веса многих других факторов, каждому значению роста соответствует несколько значений веса, которые могут быть выражены в виде распределения.
Функциональная связь имеет место по отношению к каждому конкретному наблюдению. Корреляционная проявляется в среднем для всей совокупности наблюдений. выявления взаимодействия факторов, определение силы и направленности Практическое использование корреляционного анализа: выявление взаимодействия факторов, определение силы и направления влияния одних факторов на другие.
Следует подчеркнуть, что определение наличия связи между явлениями и факторами – дело специалистов. Статистика лишь измеряет эту связь.
Корреляционная зависимость отличается по форме связи, ее направлению и силе. Ориентировочное представление о характере зависимости между двумя изученными факторами дает графический анализ (так называемая «скэттер-диаграмма»), который позволяет рассмотреть концентрацию и рассеивание точек на пересечении координат изучаемых признаков в определенном направлении вокруг линии регрессии.
Форма связи может быть прямолинейной и криволинейной. Прямолинейная связь – равномерные изменения одного признака соответствуют равномерным изменениям второго признака при незначительных отклонениях. Криволинейная связь – равномерные изменения одного признака соответствуют неравномерным изменениям второго признака.
Направление связи может быть прямое (положительное) или обратное (отрицательное). Если с увеличением одного признака второй также увеличивается или с уменьшением одного другой тоже уменьшается, зависимость прямая, положительная. Если с увеличением одного признака другой уменьшается или с уменьшением первого признака второй увеличивается, зависимость обратная, отрицательная.
По силе связи зависимость может быть сильная (сильно выражена), средняя (умеренно выражена), слабая (слабо выражена).
Размер связи | Характер связи | |
Прямая (+) | Обратная (-) | |
Отсутствует | 0 | 0 |
Слабая | От 0 до +0,29 | От 0 до -0,29 |
Средняя | От +0,3 до +0,69 | От -0,3 до -0,69 |
Сильная | От +0,7 до +0,99 | От -0,7 до -0,99 |
Полная (функциональная) | +1,0 | -1,0 |
Количественная характеристика взаимосвязи изучаемых признаков может быть дана на основании вычисления показателей силы связи между ними (коэффициенты корреляции) и определения зависимости одного признака от изменения другого (коэффициент регрессии).
Коэффициент парной корреляции вычисляется по формуле:
илиАлгоритм расчета коэффициента парной корреляции:
1) записывают исходные данные в два вариационных ряда – x и y;
2) вычисляют среднюю арифметическую ряда x и y;
3) определяют разность между членом ряда и средними величинами;
4) перемножают разности ряда x и y между собой;
5) находят сумму перемножаемых разностей (с учетом арифметического знака);
6) возводят в квадрат каждую разность (отклонение) ряда х и у;
7) определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;
8) подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.
Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания.
День введения сыворотки (х) | Летальность (у) | dx | dy | dx2 | dy2 | dx*dx |
1-й | 2,0 | -2 | -5 | 4 | 25 | 10 |
2-й | 3,0 | -1 | -4 | 1 | 16 | 4 |
3-й | 7,0 | 0 | 0 | 0 | 0 | 0 |
4-й | 9,0 | +1 | +2 | 1 | 4 | 2 |
5-й | 14,0 | +2 | +7 | 4 | 49 | 14 |
xx = 3 | xy = 7.0 | Sdx=0 | Sdy=0 | Sdx2=10 | Sdy2=94 | Sdx*dy =30 |
Коэффициент корреляции равен +0,98. Связь положительная, сильная. Следовательно, между сроками введения сыворотки и летальностью от дифтерии имеется очень тесная зависимость. Число больных в этом примере равно 900.
Можно определить достоверность коэффициента корреляции, вычислив его среднюю ошибку для большого числа наблюдений (n>50) по формуле:
, или при меньшем числе наблюдений:С достаточно большой надежностью можно утверждать, что зависимость неслучайна, если численное значение rxy превышает свою среднюю ошибку не менее чем в 3 раза.
Т.е. связь между признаками считается статистически значимой, если коэффициент корреляции превышает свою ошибку в 3 и более раз
В том случае, когда отношение коэффициента корреляции к его средней ошибки меньше 3, существование связи между изучаемыми явлениями нельзя признать доказанным.
Для малого числа наблюдений (n£30) степень надежности коэффициента корреляции может определяться по специальной таблице. При этом число наблюдений таблицы К (число степеней свободе n) равно числу наблюдений в исследовании без двух, т.е. К = n-2. Как правило, коэффициент корреляции рассчитывается при числе коррелируемых пар не менее 5.
В медицинских и биологических исследованиях связь между признаками считается статистически значимой, если величина коэффициента корреляции больше или равна табличной при Р=0,05
Показатели оценки коэффициента корреляции при малом числе наблюдений
K | P | |||
0,1 | 0,05 | 0,02 | 0,01 | |
1 | 0,988 | 0,997 | 0,9995 | 0,99988 |
2 | 900 | 950 | 980 | 990 |
3 | 800 | 878 | 934 | 959 |
4 | 729 | 811 | 882 | 917 |
5 | 669 | 754 | 883 | 874 |
6 | 662 | 707 | 789 | 834 |
7 | 582 | 666 | 750 | 798 |
8 | 549 | 632 | 716 | 765 |
9 | 521 | 602 | 685 | 735 |
10 | 497 | 576 | 658 | 708 |
11 | 476 | 532 | 634 | 684 |
12 | 458 | 532 | 612 | 661 |
13 | 441 | 514 | 592 | 641 |
14 | 426 | 497 | 574 | 623 |
15 | 412 | 482 | 558 | 606 |
16 | 400 | 468 | 542 | 590 |
17 | 389 | 456 | 528 | 575 |
18 | 378 | 444 | 516 | 561 |
19 | 369 | 433 | 503 | 549 |
20 | 360 | 423 | 492 | 537 |
25 | 323 | 381 | 445 | 487 |
30 | 296 | 349 | 409 | 449 |
35 | 275 | 325 | 381 | 418 |
40 | 257 | 304 | 358 | 393 |
45 | 243 | 288 | 338 | 354 |
50 | 231 | 273 | 322 | 354 |
60 | 211 | 250 | 295 | 325 |
70 | 195 | 232 | 274 | 302 |
80 | 183 | 217 | 256 | 283 |
90 | 173 | 205 | 242 | 267 |
100 | 164 | 195 | 230 | 254 |
Пример. В районах изучалась зависимость между охватом населения прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.