– система специально составленных заданий, решение которых имеет однозначно правильные ответы (Е. А. Михайлычев);
– метод педагогической диагностики (К. Ингекамп).
Примем следующее определение теста.
Тест – это инструмент, состоящий из системы стандартизированных заданий, стандартизированной процедуры проведения и заранее спроектированной технологии обработки и анализа результатов.
Отметим, что все основные функции контроля: обучающая, развивающая, мотивационная, диагностическая и прогностическая - реализуются через его нетрадиционную форму – тесты.
Самое существенное требование, отличающее тест от экзамена и от остальных методов контроля, - это обязательная проверка его качества. Существуют соответствующие научнообоснованные критерии, которые позволяют оценить качество теста: объективность, надежность, валидность, трудность, эффективность.
Остановимся подробнее на каждом из показателей.
Объективность. Тесты, как показывает опыт, являются значительно более качественным и объективным способом оценивания. Объективность тестирования достигается путем стандартизации процедуры его проведения и проверки показателей качества заданий и тестов целиком. Тесты — более емкий инструмент, их показатели ориентированы на измерение степени, определение уровня усвоения ключевых понятий, тем и разделов учебной программы, умений, навыков, а не на констатацию наличия у школьников определенной совокупности усвоенных знаний. Стандартизированная форма оценки, используемая в тестах, позволяет соотнести уровень успехов учащегося по предмету, как в целом, так и по отдельным разделам со средним уровнем учащихся в классе. К тому же тесты — более объемный инструмент. Выполняя тестовые задания, каждый ученик использует знания по всем темам, предусмотренным программой. Еще одно существенное отличие тестов от традиционных методов аттестации состоит в том, что использование при тестировании процедур и единых критериев оценки приводит к снижению экзаменационных стрессов. Тест — широкий инструмент и с точки зрения интервала оценивания. Если провести аналогию с прыжками в высоту, то традиционная контрольная работа представит собой не линейку, а палочку, на которой нанесены три риски — 5, 4 и 3. В случае выполнения учеником всех заданий он получает отличную отметку. При этом совершенно не ясно, перепрыгнул он палочку с запасом в несколько раз или пролетел прямо над ней. То же можно сказать и про нижнюю отметку. При сравнении тестирования и традиционного оценивания можно увидеть, что первое предоставляет возможность расширить шкалу оценивания как вверх, так и вниз. Означает ли тот факт, что если ученик не выполнил ни одного задания, что он ничего не знает? Скорее всего, нет. Давая широкие возможности для проявления достижений, тест представляет собой измерительный инструмент примерно трехметровой высоты, риски на котором расположены практически от земли. В этом отношении тестирование приходит в противоречие с учительским стереотипом о том, что отличную оценку нужно выставлять только в том случае, если все задания выполнены правильно. Можно отметить и гуманизм тестирования, который заключается в том, что всем предоставляются равные возможности, а широта теста дает возможность ученику показать свои достижения на широком поле материала. Таким образом, ученик получает некоторое право на ошибку, которого он лишен при традиционном способе оценивания.
Надежность. Под надежностью понимают согласованность результатов проведения теста на одной и той же группе испытуемых, но при изменении условий проведения, чаще всего либо времени, либо набора тестовых заданий. Надёжность - фундаментальная характеристика теста, которая показывает, в какой степени стабильны результаты тестирования при неоднократном обследовании. Обычно для оценки надежности тест проводят два раза и сравнивают полученные тестовые баллы. Чем более схожи результаты двух тестирований, тем более высок уровень надежности тестов. [4].
Валидность. Валидность теста - его пригодность для достижения поставленной цели: пригодность по содержанию, пригодность к применению в конкретных обстоятельствах, пригодность по какому-либо критерию. Валидность педагогического теста по содержанию может быть определена опытным преподавателем-экспертом, который отмечает, что задания теста: соответствуют учебной программе; охватывают всю программу; имеют высокую вероятность того, что учащийся, успешно ответивший на задания теста, знает предмет в соответствии с полученной оценкой (при установлении соответствия тестового балла принятой систем отметок в качестве критериев обычно берутся оценки, выставляемые учащимся группой преподавателей-экспертов при традиционной форме контроля знаний). Тест может быть валидным, если, помимо прочих требований, средние результаты соответствуют большей части учащихся группы, а сами данные распределяются по нормальному закону. Если это условие не выполняется, то такой тест считается невалидным с точки зрения соответствия стандартам распределения. Мера валидности теста может определяться так же сравнением с тестом-эталоном и сопоставлением с более объективными показателями, полученными другими методами. Валидность теста существенно уменьшается из-за снижения его различающей способности. Различающая способность теста тем выше, чем меньше одинаковых тестовых баллов набирают сами учащиеся. Валидность теста зависит и от длины теста. Под длиной теста понимают количество заданий, входящих в тест. Существуют тесты очень короткие, состоящие из 7-15 заданий, и очень длинные, состоящие из более 500 заданий. Если тест очень длинный, то ухудшается мотивация и внимание учащихся, а это снижает надежность и валидность. Практика показывает, что если тестирование занимает более полутора часов, то испытуемые с неохотой соглашаются отвечать на вопросы теста. С другой стороны, с точки зрения теории, чем тест длиннее, тем он надежнее. Возникающее противоречие между теорией и практикой решается компромиссом в ту или в другую сторону, в зависимости от конкретного случая [4].
Трудность. Трудность теста – это степень сложности в совокупности включенных в тест заданий. В процессе создания теста мера трудности регулярно проверяется на случайной выборке из того контингента, для которого тест предназначается. В сбалансированном тесте авторы обычно легко добиваются нормальности распределения. Дальнейшее совершенствование теста идет по пути замены ряда заданий, ответы на которые нарушают нормальность распределения. Трудность заданий влияет на надежность и валидность. Если тест очень трудный, то учащиеся чаще вынуждены догадываться - какой ответ правильный, но чем чаще они прибегают к догадке, тем больше распределение результатов теста приближается к случайному распределению. Поэтому пригодность теста для оценки знаний всей массы учащихся будет ниже, чем труднее тест. Такое же влияние на надежность, но по другой причине, оказывает легкий тест, в котором учащиеся редко догадываются, их ответы устойчивы, но между ними нет различий [17].
Эффективность. Эффективность педагогического теста определяется творческим подходом составителей к разработке системы заданий, соответствующих конкретным целям тестирования [17].
К настоящему времени в педагогическом сообществе нет единства в классификации тестов. В. С. Аванесов, А. Н. Майоров, М. Б. Челышкова, Т. Д. Макарова видят разные признаки демаркации. Однако в соответствии с методологией создания теста все авторы единодушно выделяют: критериальные, предназначенные для выявления факта порога усвоения учебного материала; нормативные, обеспечивающие ранжирование учащихся по уровню усвоения материала относительно нормы. По профессиональному признаку можно определить: стандартизированные и нестандартизированные тесты.
Обобщая исследования учёных, из существующего многообразия типологизаций тестов выделим в первую очередь те, которые могут быть соотнесены с видами контроля: предупредительным, текущим, итоговым. Это, соответственно, установочный, формирующий, итоговый тесты.Установочный тест выявляет исходный уровень подготовки школьников, он содержит как легкие, так и трудные задания. Замерив базовый уровень учащегося, учитель может наблюдать за развитием каждого ребенка, вносить элементы индивидуализации в учебный процесс. Формирующий тест определяет прогресс достигнутого в обучении. К данному типу тестов мы относим базовые и диагностические. Первые включают репродуктивные задания и проводятся на уровне формирований понятий. Вторые содержат задания от репродуктивных до творческих и выявляют уровень усвоения темы или раздела программы. Итоговый тест, который чаще называют тестом школьных достижений, должен отвечать всем требованиям стандартизированного научно обоснованного теста [1, 4, 17].
Проанализировав многообразие классификаций тестовых заданий, представленных в литературе, и сопоставив их с нормативными документами, целесообразно предложить классификацию по типам и видам заданий: типы - закрытые (задания с выбором верного ответа), открытые (задания со свободно конструированным ответом); виды – с выбором одного верного ответа, с выбором более одного верного ответа, на установление соответствия, на установление правильной последовательности, на дополнение с кратким ответом, на дополнение с развернутым ответом.
Одним из направлений модернизации образования является введение единого государственного экзамена (ЕГЭ). Хотя в среде педагогической общественности нет единой точки зрения, но все большее число педагогов и руководителей различных уровней признают, что ЕГЭ более надежный инструмент для оценки образовательных достижений школьников. Общероссийские тестовые баллы массового тестирования задают средние статистические нормы учебных достижений, относительно которых субъекты образовательного процесса могут самоидентифицироваться в едином контрольно-измерительном пространстве. Анализ успехов и недостатков требуется образовательным учреждениям, органам систем управления на всех иерархических уровнях для коррекции образовательного процесса. Так как экзамен по математике является обязательным для всех выпускников, то результаты ЕГЭ можно рассматривать как информационную основу для организации многоуровневого мониторинга. Особо подчеркнем, что вводимая независимая система оценивания, осуществляемая в рамках ЕГЭ, является мощным воспитывающим средством. Отсюда – воспитывающая функция мониторинга, которая проявляется опосредованно.