В теории тестирования различают два типа валидности: внешнюю и внутреннюю (Д. Канфменн, 1973). Внешняя валидность присуща тестам, не имеющим сходных компонентов с оцениваемой педагогической системой. Внутренняя валидность свойственна тем тестам, которые содержат в себе компоненты оцениваемой педагогической системы. Считается, что тесты с внешней валидностью обладают большей доказательностью. Оба типа валидности разработаны недостаточно, а поэтому сравнительно редко учитываются в практике исследований.
Непременным условием валидности теста является его воспроизводимость. Однако «нет правил без исключений». В данном случае исключения, о которых будет сказано позже, объясняются не сущностью явления, а неточностью регистрации выполнения контрольных упражнений.
Мера валидности тестов определяется тремя способами: сравнением с тестом-эталоном; сопоставлением с более объективными показателями, полученными другими методами; высчитыванием коэффициента валидности.
Сравнение с тестом-эталоном —наиболее заманчивый способ, но и более сложный. Суть его заключается в следующем: результаты (предположим, уровень развития силы), полученные вновь созданным тестом (дублером), сравниваются с показателями, полученными с помощью ранее существовавших тестов-эталонов. Если данные теста-дублера соответствуют по абсолютным значениям (или динамике) тестам-эталонам, то первые считаются валидными.
Таким образом, могут быть созданы тесты-дублеры, расширяющие возможности экспериментатора в выборе тех, которые в наибольшей мере соответствуют условиям исследования. Однако создание подобных тестов—дело довольно сложное. Объясняется это тем, что каждый тест специфичен и подобрать два или более тестов, характеризующих одно и то же состояние, бывает иногда невозможно. Например, два, казалось бы, одинаковых теста на силу (подтягивание и сгибание-разгибание рук в упоре лежа) лишь условно могут считаться дублерами, так как в одном случае нагрузка падает преимущественно на мышцы-сгибатели, а в другом — на мышцы-разгибатели.
Сопоставление с объективным показателем предусматривает сравнивание достижений в тесте с результатами, полученными с помощью более объективных методов исследования (например, динамики показателей тестов на выносливость с уровнем максимального потребления кислорода). Если получены однотипные изменения обоих результатов, то считается, что первый тест обладает валидностью.
Валидность контрольных упражнений для видов деятельности, имеющих Количественную оценку результатов, для большей объективности определяется специально рассчитанным коэффициентом корреляции — коэффициентом валидности.
Можно пользоваться коэффициентами валидности, рассчитанными другими авторами, а можно рассчитать их самостоятельно. Для этого необходимо отобрать достаточную по количеству группу исследуемых (как правило, из числа тех занимающихся, с которыми будет проведен основной эксперимент), измерить результаты выполнения ими контрольного упражнения (например, прыжок в высоту с места) и соревновательного (например, прыжок в высоту с разбега каким-либо способом). Затем между полученными показателями рассчитать коэффициент корреляции (см. «Корреляция»). Если он составляет 0,9 и больше, то валидность считается высокой, если меньше 0,7— низкой.
Несколько сложнее рассчитывается коэффициент валидности контрольных упражнений в тех случаях, когда предметом исследования является деятельность, состоящая из разнообразных двигательных действий (например, разносторонняя физическая подготовленность школьников, студентов и др.). Наиболее вероятным способом можно признать высчитывание нескольких коэффициентов валидности. Для этого всю исследуемую деятельность следует классифицировать так, чтобы образовались группы упражнений, в каждой из которых они характеризовались бы каким-либо одним ведущим признаком; затем в каждой группе выбрать упражнение, которое являлось бы наиболее характерным именно для данной группы; наконец, к каждому характерному упражнению с помощью теоретического анализа и расчета коэффициента валидности подобрать контрольные упражнения.
Другой способ основан на выделении так называемого теста-критерия, т.е. такого контрольного упражнения, которое обладает наибольшей степенью воспроизводимости и валидности по отношению к основным двигательным действиям. Следовательно, и в этом случае приходится классифицировать все физические упражнения, входящие в основную двигательную деятельность, на группы, выделять в каждой группе наиболее характерные упражнения и к ним подбирать общий тест-критерий. Он и станет тем эталоном, по которому будет впоследствии рассчитываться валидность любого нового контрольного упражнения. Разумеется, тест-критерий окажется действителен только для лиц, имеющих одинаковые характеристики.
Чаще всего за тест-критерий стараются принять простое двигательное действие, нагрузка которого на организм легко поддается регулированию и, что самое главное, которое позволяет судить об «общей готовности» к мышечной работе. Среди таких тестов широкое распространение получили различные варианты гарвардского степ-теста (Гарвардский колледж, 1943). Основной его вариант был разработан для оценки физической подготовки студентов к выполнению мышечной работы. Содержание этого степ-теста следующее. На четыре счета испытуемый наступает одной ногой на скамейку высотой 50 см, приставляет вторую ногу и выпрямляется, ставит «первую» ногу на пол, приставляет к ней «вторую». Под метроном за 1 мин. надо выполнить 30 циклов и продолжать упражнение ровно 5 мин. Если исследуемый не в состоянии выполнять упражнение в течение 5 мин., то фиксируется по секундомеру точное время выполнения. Сразу же после выполнения упражнения исследуемый садится на стул. Пульс подсчитывается в течение 30 сек.: первый раз после 60 сек. отдыха, второй раз—между 120 и 150 сек., третий раз — между 180 и 210 сек. Затем рассчитывается индекс физической пригодно с-т и (ИФП) по формуле:
тлап = время выполнения упражнения (в сек.) Х 100
сумма трех измерений пульса X 2
На основании обследования более 8000 студентов были определены нормы ИФП: выше 90 единиц — отличная подготовка, от 80 до 89—хорошая, от 64 до 79—выше средней, от 55 до 63 — ниже средней, 54 и ниже — плохая.
Проверка гарвардского теста показала не только достаточно высокую валидность, но и очень низкие коэффициенты корреляции с 27 другими контрольными упражнениями на выносливость и силу. Последнее свидетельствует об оригинальности теста. Модификации его касаются нагрузки, способа подсчета пульса и приспособления для • различных контингентов населения (старших школьников, девушек, женщин, выздоравливающих больных и др.). В одном из вариантов теста помимо пульса определяется максимальное потребление кислорода. Гарвардский тест применяется и самостоятельно, и в комплексе с другими тестами.
Значение коэффициента валидности трудно переоценить. Только он может достаточно достоверно показать, что данное контрольное упражнение определяет уровень развития именно этого двигательного качества, а не какого-то другого. Например, считалось, что показатели динамометрии кисти позволяют судить о силовых возможностях вообще. Коэффициенты валидности показали (Келог, Мартин, 1923), что динамометрия кисти характеризует только силу кисти. Еще один пример. До недавнего времени считалось, что бег на 100 м является тем контрольным упражнением, которое говорит о скоростных возможностях человека. Рассчитанные же коэффициенты валидности на школьниках 7—16 лет и спортсменах III и II разрядов показали, что результаты в беге на 100 м у этих контингентов занимающихся лимитируются уровнем развития выносливости. Наибольший коэффициент валидности, если речь идет о скоростных возможностях, имеет бег на 20—30 м с ходу и бег на 40—60 м.
Стандартизация тестов имеет особое значение при разработке систем контрольных упражнений для детей разного возраста, для занимающихся различного уровня физической подготовленности. Применять одно и то же контрольное упражнение в занятиях с людьми различной физической подготовленности можно только в тех случаях, когда коэффициент валидности остается примерно одинаковым, т. е. когда валидность является параллельной (К. Мекота, 1966). К сожалению, коэффициент валидности с изменением уровня физической подготовленности может не только увеличиваться, но и уменьшаться. Таким образом, коэффициент валидности бывает довольно высоким при низком уровне физической подготовленности и явно недостаточным при ее высоком уровне.
Знание коэффициентов валидности контрольных упражнений важно не только для исследований. Любое тестирование в педагогическом процессе не будет эффективным, если не учитывать степень валидности применяемых тестов.
3.3. Хронометраж
Определение времени, затрачиваемого на выполнение каких-либо действий, и его графическое изображение составляют основное содержание хронометрирования и хронографирования.
Обычно проводится хронометрирование какого-либо одного элемента целостного действия, например разбега в прыжках (для высчитывания скорости разбега), либо поэтапное хронометрирование длительно выполняемого действия, являющегося частью занятия, например, проплывания пятидесятиметровых отрезков, либо хронометрирование всего занятия.
Хронометрирование используется и как самостоятельный метод исследования (например, при обобщении опыта работы лучших учителей) и как дополнительный к другим методам (например, в педагогическом эксперименте, определяющем сравнительную эффективность методов разучивания двигательных действий, оно необходимо для установления времени, затрачиваемого на освоение подводящих упражнений).
Хронометрирование занятия осуществляется путем наблюдения за деятельностью какого-либо ученика. Для большей объективности под наблюдение следует брать такого занимающегося, который по своим качествам в большей мере отвечает задачам исследования. Например, при изучении опыта работы учителя наблюдение целесообразно проводить за средним по развитию учеником; если же требуется установить двигательную активность занимающихся, которые имеют медицинские ограничения, то под наблюдение необходимо брать ученика именно этой медицинской группы.