Именно неформальность знаний как таковых, и процесса проверки знаний в частности, породило множество проблем в области компьютерного тестирования, таких как необъективность оценивания, трудность понимания учащимися подготовленных вопросов, медленная работа компьютерных систем, и т.п.
На мой взгляд, инженерия знаний и методы теории искусственного интеллекта помогут создать систему контроля знаний, позволяющую строить модели знаний преподавателя и тестируемого и объективно оценивать знания и умения последнего.
2. Интеллектуальное тестирование
В понятие «искусственный интеллект» вкладывается различный смысл — от признания интеллекта у ЭВМ, решающих логические или даже любые вычислительные задачи, до отнесения к интеллектуальным лишь тех систем, которые решают весь комплекс задач, осуществляемых человеком, или еще более широкую их совокупность. Можно выделить две основные линии работ по искусственному интеллекту (ИИ). Первая связана с совершенствованием самих машин, с повышением "интеллектуальности" искусственных систем. Вторая связана с задачей оптимизации совместной работы "искусственного интеллекта" и собственно интеллектуальных возможностей человека.
Идея создания мыслящих машин "человеческого типа", которые, казалось бы, думают, двигаются, слышат, говорят, и вообще ведут себя как живые люди, уходит корнями в глубокое прошлое. Еще древние египтяне и римляне испытывали благоговейный ужас перед культовыми статуями, которые жестикулировали и изрекали пророчества (разумеется, не без помощи жрецов). В средние века и даже позднее ходили слухи о том, что у кого-то из мудрецов есть гомункулы (маленькие искусственные человечки) - настоящие живые, способные чувствовать существа [2]. В настоящее время роботы, системы распознавания образов, экспертные системы и т.д. вызывают у непосвященного тот же трепет и восторг перед «думающей» машиной.
Но не зря в свое время были заморожены некоторые исследования в области ИИ. Попытки создать машинный разум не удавались, и раз за разом энтузиазм ученых угасал, так как существующие на тот момент вычислительные средства не позволяли хотя бы приблизительно воссоздать взаимодействие нейронов головного мозга. Появление многопроцессорных систем и увеличение количества команд микропроцессоров и его тактовой частоты позволяет сейчас, на мой взгляд, «построить» приближенное мышление человека с использованием параллельных процессов и нейронных сетей.
Обращаясь к проблеме роли ИИ в обучении и образовании, будем рассматривает этот процесс как одну из разновидностей взаимодействия человека с ЭВМ, и раскрывать среди перспективных возможностей те, которые направлены на создание так называемых адаптивных обучающихся систем, имитирующих оперативный диалог учащегося и преподавателя-человека.
Интеллектуальное тестирование предполагает наличие модели знаний, модели самого процесса тестирования и оценивания. Так можно охарактеризовать в общем все разработки в этой области. Рассмотрим некоторые из них более подробно.
Традиционная Российская система оценивания знаний обучаемых основана на лингвистических оценках, по которым устанавливается стипендия, производится учет успеваемости, проставляются записи в зачетных книжках за период обучения и др.
Вместе с тем, такая новая образовательная процедура как образовательное тестирование по альтернативному признаку предполагает оценивание уровня знаний в диапазоне от нуля до ста, что порождает проблему распознавания лингвистического образа знаний по результатам такого образовательного тестирования.
Под образом уровня знаний понимаются обучаемые, принадлежащие к множеству (группе), знания которых по “эталону уровня знаний” отнесены к лингвистическим оценкам неудовлетворительно (D), удовлетворительно (C), хорошо (B), отлично (A).
Под распознаванием образа уровня знаний понимается процедура принятия решения о принадлежности конкретного обучаемого к одному из указанных образов на основании сравнения его образовательных достижений при тестировании с характеристиками образа.
При тестировании по альтернативному признаку используется закрытая форма теста, характеристиками которой являются: функция плотности распределения неправильных ответов f(d), приемлемый уровень неправильных ответов q0, неприемлемый уровень неправильных ответов q1, риск заниженной оценки знаний a, риск завышенной оценки знаний b, функция оценивания знаний f(Q), объем образовательной информации N, объем выборки заданий теста n и критерий принятия решений в виде предельного числа неправильных ответов K.
Перечисленные характеристики являются взаимозависимыми, но не обладающими достаточным свойством четкости. В условиях их нечеткости для распознавания образа уровня знаний обучаемых вполне допустимо для нормально реализованной образовательной услуги принять модель распределения неправильных ответов по закону редких случайных событий Пуассона и функцию оценивания уровня знаний сформировать по этому же закону [8].
Поскольку образовательная информация в банке заданий теста N в их выборке n представляется как статистическая совокупность, а задания теста обучаемому в компьютерном варианте всегда для выполнения выдаются последовательно, то для распознавания образа уровня знаний возможно воспользоваться последовательным критерием Вальда. При этом примем дополнительное принципиальное условие, что задания теста однородны по количеству образовательной информации по конкретной учебной дисциплине, поскольку аналитических методов классификации заданий по мере их сложности или трудности пока не разработано.
Будем обозначать гипотезу о приемлемом уровне знаний H0, а гипотезу о неприемлемом уровне знаний H1. Пусть в результате последовательного поступления заданий теста в объеме n получены неправильные ответы d1, d2, d3…dn. При известной функции оценивания знаний по закону Пуассона последовательный критерий Вальда позволяет по выборке объемом n классифицировать обучаемых по уровню знаний на три подобраза по количеству областей принятия решений. Для того, чтобы иметь четыре образа необходимо произвести для каждой из трех областей повторное последовательное тестирование [7].
В предлагаемой процедуре рекомендуется использовать два способа распознавания образа уровня знаний: нормальный и усиленный. При этом задаются только четыре исходные характеристики теста q1, q0, a и b.
По нормальному способу по первой выборке заданий теста n1 производится классификация обучаемых на три предварительные области (уровни): низкая, нормальная и высокая. По второй выборке заданий теста n2=n1 или n2<n1 для уровня низкий ужесточаются исходные характеристики q0 и q1 и обучаемые аттестуются по трем образам D,C и B. Для нормального уровня ужесточаются характеристики a и b и обучаемые аттестуются по трем образам C,B и A. Для высокого уровня тестирование осуществляется без изменения исходным q0, q1, a и b и обучаемые аттестуются на два образа B и A. К достоинствам нормального способа относится то, что обучаемые по второй выборке могут существенно улучшить свои образовательные достижения, что отвечает требованиям закона «О защите прав потребителей продукции и услуг».
По усиленному способу по первой выборке обучаемые классифицируются только на два уровня: низкий и высокий. По второй выборке для низкого уровня ужесточаются характеристики q0 и q1 и обучаемые аттестуются только на два образа D и C. По второй выборке для высокого уровня ужесточаются характеристики a и b и обучаемые аттестуются только на два образа B и A. Достоинством усиленного способа является более уверенное распознавание образа уровня знаний и поэтому его рекомендуется использовать в тех случаях, когда снижено доверие к реализуемой образовательной услуге.
Существенным отличием предлагаемых методов распознавания образа уровня знаний при тестировании от известных является заранее заданная погрешность распознавания, заложенная в рисках принятия решений a и b, использование наиболее мощного критерия Вальда и достаточно простые и апробированные в статистическом приемочном контроле способы ужесточения планов тестирования, что позволяет использовать для решения практических задач распознавания образа уровня знаний международный стандарт ИСО 8423-91 «Статистические методы. Последовательные планы выборочного контроля по альтернативному признаку». Это способствует повышению достоверности компьютерного тестирования, что позволяет использовать предложенные теоретические разработки для обоснования методов оценивания знаний в предлагаемом едином экзамене довузовского образования, в процессе реформирования Российской системы образования [7].
В каждом курсе есть ключевые моменты, особенно важные темы, без знания которых невозможно усвоение более сложного материала в процессе учебы или которые будут необходимы в работе по специальности. На устном экзамене при личном контакте со студентом преподаватель обязательно оценивает понимание студентом этих тем. При автоматизированном тестировании можно учесть важность каких-либо разделов курса, увеличив долю вопросов по этим разделам в общем количестве вопросов. Но это не всегда удобно для составителя теста, потому что не всегда наиболее важные разделы содержат больше всего материала.