Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы (стр. 4 из 11)

Как правило, прежде чем применять методы статистической обработки к тестовым заданиям, сначала используют описательную статистику, которая заключается в вычислении статистических показателей. Рассмотрим их.

Первый из них

- среднее отклонение достижений испытуемых. Далее рассчитываем три взаимосвязанных показателя:

- сумма квадратов отклонений от средней арифметической оценки.

- дисперсия.

- стандартное отклонение по тесту.

По величине

можно судить о доверительном интервале достижений испытуемых. В окрестности

находится большинство достижений группы. Дисперсия тестовых результатов показывает интервал (меру разброса), в котором находятся все полученные баллы испытуемых, включая стандартное отклонение по тесту и ошибку измерения. По величине стандартного отклонения можно судить о статистическом характере распределения результатов [21]. Если средний тестовый балл равен

, а

, то в интервале

находятся баллы, набранные большинством тестируемых.

Рассмотрим некоторые классические методы оценки основных характеристик теста (валидность, надежность, дискриминативность).

2.2.1 Методы оценки валидности

Напомним, что валидность в теории тестирования означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей [21]. Из анализа литературы [4,14,17,20,21] мы выделили два метода оценки валидности. Рассмотрим их.

Метод 1. Вычисляется коэффициент корреляции каждого тестового задания с суммой индивидуальных тестовых баллов испытуемых, который показывает, насколько Валино данное задание отличает слабых от сильных.

А. Коэффициент корреляции

рассчитывается по формуле [14]:

где

- средний арифметический балл испытуемых, успешно выполнивших

-е задание теста,

- средний арифметический балл испытуемых, не справившихся с

-м заданием,

- стандартное отклонение по

-му заданию,

- стандартное отклонение по всему тесту.

В. Значение коэффициента корреляции интерпретируется следующим образом:

· 0,7 – 1 – связь очень сильная;

· 0,5 – 0,7 – средняя;

· 0,3 – 0,5 – слабая.

Метод 2. Также как и в предыдущем методе вычисляется коэффициент корреляции, который показывает силу (интенсивность) линейной связи заданий между собой.

А. Коэффициент корреляции вычисляется по формуле Пирсона [21]:

где

- сумма квадратов отклонений по заданиям

- количество правильных ответов на то и другое задание соответственно;

- сумма попарных произведений тестовых баллов, полученных по каждому из заданий.

В. В случае положительной корреляции, можно говорить о линейной зависимости между заданиями (чем больше учащихся решат задание j, тем больше решат и задание k). Если коэффициент корреляции высокий, то задания взаимозаменяемы. Отрицательная корреляция свидетельствует об обратной линейной связи. В случае нулевой корреляции такого рода зависимость отсутствует [21].

Вывод: оба метода заключаются в вычислении коэффициента корреляции. Первый метод вычисляет коэффициент корреляции каждого тестового задания с суммой индивидуальных тестовых баллов испытуемых, второй – корреляцию между заданиями.

2.3 МЕТОДЫ ОЦЕНКИ НАДЕЖНОСТИ

Как уже говорилось выше, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого.Методы оценки надежности заключаются в вычислении коэффициента надежности разными способами.

Метод 1 – метод половинного деления. Тест делится на две равные части и подсчитывается сумма баллов, набранных испытуемыми по каждой из половин. Полученные величины коррелируются между собой по формуле Пирсона [21]. Полученный коэффициент

показывает надежность теста при коррелировании его половин, он говорит о внутренней состоятельности теста.

А. Коэффициент надежности теста вычисляется по формуле Спирмана-Брауна [21]:

где

- коэффициент надежности теста по двум половинам.

В. Значение коэффициента надежности в этом методе интерпретируется следующим образом: если коэффициент надежности принимает значение от 0,8 до 1, то надежность хорошая, от 0,5 до 0,8 – удовлетворительная и менее 0,5 – неудовлетворительная.

2-й метод – метод подсчета средней корреляции заданий теста.

А. Надежность этим методом вычисляется по формуле [21]:

где

- средняя корреляция,

- сумма средних значений в корреляционной таблице [21, стр.13, табл.2],

- общее число заданий.

В. Результаты вычисления в этом методе интерпретируются также как и в предыдущем.

3-й метод.

А. Коэффициент надежности вычисляется по формуле Кюдера-Ричардсона [20]:

где

- число заданий в тесте,

- сумма дисперсий заданий теста,

- дисперсия.

В. Результаты интерпретируются аналогично предыдущим методам.

4-й метод - метод оценки высоких и низких достижений группы. Для расчета коэффициента надежности используется разбиение тестируемых на две группы. При достаточно большом количестве испытуемых каждая из этих групп составляет примерно 0,27 от общего количества.

А. Коэффициент надежности рассчитывается по формуле [20]:

где

- средние достижения групп с наиболее высокими и наиболее низкими результатами соответственно (группа испытуемых делится на две равные части) [20].

В. Результаты интерпретируются аналогично предыдущим методам.

Вывод: мы рассмотрели четыре метода нахождения надежности. В трех методах используют корреляционную связь, в одном учитывают достижения группы. Заметим, что коэффициенты надежности найденные разными методами отличаются. Приведем пример таблицы значений коэффициента надежности, полученный разными способами, который рассчитывался по результатам теста ЕГЭ [20].

Таблица 2. Значения коэффициента надежности, рассчитанного разными способами.

Метод половинного деления	Метод подсчета средней корреляции	Формула Кюдера-Ричардсона	Метод оценки достижений группы
0,864(очень хорошая)	0,773(удовлетв.)	0,784(удовлетв.)	0,508(неудовлетв.)

Из таблицы можно сделать вывод о значительной доле субъективной составляющей в методе оценки достижений группы, то есть коэффициент надежности теста, найденный с помощью этого метода, существенным образом зависит от уровня достижения испытуемых. Другие рассмотренные методы оценки надежности более объективны.

2.4 МЕТОДЫ ОЦЕНКИ ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ