Оперантное обусловливание (от лат. operatio– действие) означает такое научение, в ходе которого приобретение определенного нового опыта и реализация его в поведении приводят к достижению определенной цели. Оно позволяет нам воздействовать на среду и присуще не только людям, но и более простым существам, таким как паук или таракан. Сам термин был введен Б. Ф. Скиннером, хотя процедуру оперантного обусловливания использовали веками для дрессировки животных. У Скиннера также был предшественник, который вплотную приблизился к описанию этой формы научения.
На рубеже XIX и XX вв. американский исследователь Э. Торндайк пытался выяснить, существует ли у животных разум, или интеллект. Для этого он построил «проблемный ящик» (рис. 6-2), в который помещал голодных котов. Вне клетки находилась пища, как правило, рыба. Животное могло открыть дверку ящика только в том случае, если оно нажало на педаль внутри ящика или потянуло за рычаг. Но коты вна-
Рис. 6-2. «Проблемный ящик» Э. Торндайка
чале пытались достать приманку, просовывая лапы сквозь решетку клетки. После серии неудач они обычно обследовали все внутри, производили разнообразные действия. В конце концов животное наступало на рычаг, и дверка открывалась. В результате многочисленных повторных процедур животные постепенно переставали совершать лишние действия и сразу нажимали на педаль.
Торндайк назвал это научением путем проб и ошибок, поскольку перед тем как животное научается совершать нужный акт, оно реализует множество ошибочных. Такое научение можно представить графически. На рис. 6-3 изображен график, или кривая научения, где по линии абсцисс отложено количество процедур, а по линии ординат – время, за которое животное открывает дверку. По нему можно увидеть, что чем больше раз животное попадало в проблемный ящик, тем быстрее оно оттуда выходило или, другими словами, тем меньше совершалось ошибок перед реализацией нужного действия.
Важно остановиться на одном моменте, который был отмечен американским исследователем и возведен в ранг закона. Он обнаружил, что те действия, которые поощряются, т. е. подкрепляются, с большей вероятностью возникали в последующих пробах, а те, которые не подкреплялись, не использовались животным в последующих пробах. Другими словами, животное научалось совершать только те действия, за которыми следовало подкрепление – это и есть закон эффекта.
Каковы же были выводы Торндайка по поводу разумного поведения животных? Исследователь отрицал наличие у них каких-либо признаков интеллекта, так как научение происходит путем «слепых» проб и ошибок, а механизм научения заключается в установлении связей между стимулами и реакциями. Не вдаваясь в теоретические подробности, отметим только, что уже упоминавшееся направление – бихевиоризм – стало формироваться после публикации работ Торндайка.
Самый радикальный представитель бихевиоризма, Б. Ф. Скиннер, полагал, что оперантное поведение спонтанно и возникает без каких-либо очевидных стимулов, а реактивное поведение является следствием какого-то стимула. Оперантное поведение можно модифицировать путем подкрепления. По сути, поведение можно контролировать и им можно управлять, создав соответствующий порядок подкрепления. Скиннер много экспериментировал, в основном, с крысами и голубями и утверждал, что закономерности научения одинаковы как для животных, так и для человека.
Рис. 6-3. Кривая научения |
Разберем типичный эксперимент Скиннера. Голодного голубя сажают в так называемый «ящик Скиннера» (рис. 6-4). Внутри ящика нет ничего, кроме кнопки и находящейся под ней кормушки. Голодная птица, попав в клетку, начинает все обследовать, рассматривать и в результате ударяет клювом по кнопке. Опять повторяется поиск: голубь клюет пол или кормушку, в итоге опять клюет кнопку. Так животное в течение некоторого вре-
мени несколько раз клюет кнопку. Количество клеваний по кнопке, скажем, за полчаса, условно принимают за исходный оперантный уровень. Далее включают кормушку, и теперь голубь после каждого удара по кнопке получает зернышко. Через некоторое время птица научается клевать кнопку, так как это действие подкрепляется. Чем больше она клюет кнопку, тем больше она получает пищи. Если голубь будет клевать кнопку с высокой частотой, то это действие характеризуется высоким оперантным уровнем, если будет клевать ее редко, то действие будет иметь низкий оперантный уровень,
Оперантный уровень, таким образом, показывает уровень обученности подкрепляемому акту. Но что будет, если перестать подавать подкрепление? Как и в классическом обусловливании, произойдет угасание оперантного поведения. Приведем пример. Маленький мальчик проявлял истерические формы поведения, если родители не уделяли ему нужного внимания, особенно перед сном. Так как родителей такое поведение сильно тревожило, они все время успокаивали его и этим подкрепляли дальнейшее появление истерики. Им посоветовали перестать обращать внимание на ребенка, как бы сильно он ни плакал. Отмена подкрепления в форме внимания должна была привести к угасанию, т. е. к исчезновению всех истерических проявлений, что и произошло. Плач мальчика исчез уже через одну неделю.
Процедуру оперантного обусловливания применяют для научения животных сложным формам поведения, которые не возникли бы в естественных условиях. Например, медведя можно научить водить мопед, а дельфина – прыгать через горящий круг. Поведение такой сложности можно выработать у животных, применяя процедуру формирования поведения, Для примера приведем ситуацию научения кролика потягиванию кольца.
В небольшой клетке в одном углу находится автоматическая кормушка, напротив, в другом, углу, – кольцо. Голодный кролик, попав в клетку, в первые минуты все обнюхивает, становится на задние лапы и выглядывает из клетки. Экспериментатор
Рис. 6-4. «Ящик Скиннера» |
начинает подавать кормушку с пищей. Кормушка работает с шумом, поэтому животное не сразу залезает в нее. После того как кролик привык к шуму, он уже связывает его с появление пищи и смело залезает в кормушку за ней. Через некоторое время перестают подавать пищу, после чего кролик вновь начинает осуществлять поисковое поведение. Когда животное поворачивается в сторону кольца, снова подают кормушку с пищей. После множества реализаций поворота кролику начинают давать пищу только в том случае, если он подходит к кольцу. Когда подход к кольцу сформирован, опять перестают подавать пищу. Животное начинает поисковое поведение, повторяет все формы выученных ранее актов, начинает грызть кольцо и тянет его. Сра-
Подкрепление – предмет или событие, которое значимо для организма. |
батывает кормушка. Через некоторое время животное уже научается потягиванию за кольцо.
В оперантном научении особую роль занимает подкрепление. Подкреплением называется любой предмет или событие, которое значимо для организма и ради достижения которого им совершается поведение. Выделяют положительное подкрепление и отрицательное подкрепление. В качестве положительного подкрепления всегда выступают биологически необходимые для организма объекты, например, пища, вода, половой партнер и т. д. У людей к биологически необходимым объектам добавляются продукты культуры или культурные ценности. Отрицательное подкрепление опасно для жизни, поэтому организм пытается избежать его или предотвратить его действие. В качестве отрицательного подкрепления исследователи часто используют электрический ток или громкий звук, а процедуру научения в таких случаях принято называть аверзивным обусловливанием (от англ. aversive– отвращающий).
Теперь нам становится понятно, почему Скиннер полагал, что поведением можно манипулировать через подкрепление. Но на самом деле все оказалось гораздо сложнее. Мак-Фарленд сообщает, что некоторые исследователи пытались научить цыплят стоять спокойно на ровной площадке, чтобы получить вознаграждение, но те все время скребли пол. Другие пытались научить свинью вкладывать в копилку особую монету. Но свинья ни за какое подкрепление не хотела научиться этому, она многократно роняла на пол монету и поднимала опять. Проводили также исследования с голубями, в ходе которых их обучали клевать кнопку либо взмахивать крыльями. Оказалось, что птицы быстрее научались клевать кнопку, если в качестве подкрепления выступала пища (положительное подкрепление), а взмахивать крыльями – если этим поведением они избегали удара электрического тока (негативное подкрепление). С точки зрения Скиннера, голуби должны были научиться клевать кнопку или встряхивать крыльями независимо от рода подкрепления.
Такой парадокс объяснили этологи – исследователи поведения животных в естественных условиях. У голубей акт клевания является частью пищевого поведения, поэтому голубь быстрее научается клевать кнопку, если за этим следует подкрепление в виде пищи. А взмахивание крыльями является частью избегательного поведения, так как птицы совершают этот акт, перед тем как взлететь. Ограничения такого рода показывают, что научение связано с имеющимся опытом животного, а также с врожденными формами поведения.
6.2. Сложные формы научения
Латентное научение. Еще в начале века ученые заметили, что крысы быстрее научаются проходить лабиринт, если перед процедурой обучения их просто помещали туда на 20 минут. Было ли это случайностью, либо на научение каким-то образом влиял предшествующий опыт, – предстояло проверить в специальном эксперименте, что и было сделано Р. Блоджетом в 1929 г. Для этого он взял две группы крыс. Одна группа была контрольной, а другая – экспериментальной.