Смекни!
smekni.com

Обучение с подкреплением (стр. 6 из 7)

В реальной жизни ограничение времени отставания является попросту тем временем, которое вы считаете нужным ждать, пока просьба или инструкция будут выполнены. Родителей, начальников и учителей, которые проявляют последовательность в выработке определенного временного интервала реакции, обычно считают хорошими.

Стимулы в качестве подкрепления: поведенческие цепи

Как только стимул становится условным сигналом, происходит интересная вещь: он превращается в подкрепление. Вспомните звонок на перемену в школе. Звонок на перемену является сигналом, условным сигналом, означающим: “Вы свободны, идите и играйте”. А кроме того, он воспринимается как подкрепление — дети рады, когда слышат его, и если бы они смогли сделать что-либо, чтоб заставить его прозвенеть скорее, они бы это сделали. Теперь представьте себе звонок на перемену, который не звонит, если в классе нет тишины. Ко времени перемены у вас будет очень тихий класс.

Поведенческие цепи — очень распространенное явление. В реальной жизни мы часто производим серии связанных действий, состоящих из многих отдельных поведенческих актов. Не надо далеко ходить за примерами — работа плотника или уборка квартиры — неплохая иллюстрация. Мы ожидаем, что и наши питомцы будут вести себя так же: “Подойди”, “Сядь”, “Ляг”, “Следуй за мной” и так далее без перерыва я без видимого подкрепления. Эти длительные ряды действий являются цепным поведением. В противоположность другим длительным действиям эти могут выполняться часами, сотни раз без напряжения, без сбоев, без задержек, поскольку каждый акт в действительности подкрепляется возможностью выполнить следующее действие цепочки, и так до заключительного подкрепления выполнением всего дела, всей цепи.

Однако поведенческие цепи рвутся и поведение рассыпается на элементы, если в цепочку вклинивается невыученный поведенческий акт, или действие, не находящееся под контролем стимулов. Вы не можете подкрепить субъекта сигналом, если он этот сигнал не распознает или не может выполнить то, что этот сигнал требует. Отсюда следует, что цепное поведение следует всегда вырабатывать с конца. Начинайте с последнего действия в цепи, удостоверьтесь, что оно усвоено, и сигнал к его выполнению хорошо узнается, лишь потом переходите к разучиванию предпоследнего действия и т.д. Например, если при заучивании стихотворения, мелодии, текста речи, роли в пьесе вы разделите задания, скажем, на пять частей и начнете запоминать их в обратном порядке, с конца — вы всегда будете двигаться от того, что вы знаете слабее, к тому, что знаете более прочно, от материала, в котором вы не совсем уверены, к материалу, хорошо уже усвоенному, имеющему подкрепляющее действие. Запоминание материала в том порядке как он написан и должен воспроизводиться приводит к необходимости постоянно продираться от знакомой тропы в сторону более трудного и неизвестного, что является неподкреплением. Подход к запоминанию материала как к цепному поведению не только убыстряет процесс запоминания, но и делает его более приятным.

Поведенческие цепи — это особое понятие. Я часто сама спотыкалась на них, чувствуя, что надо вернуться к концу ряда, так как я не могу заставить животное, ребенка или себя выполнить кажущуюся простой последовательность действий, пока я не понимала, что пыталась выработать цепное поведение не с того конца. Когда делают пирог, то глазурью его украшают в последнюю очередь, но если вы хотите обучить ребенка получать удовольствие от приготовления пирога, начните с того, что попросите “помочь” украсить его глазурью.

Генерализованное управление с помощью стимулов

С большинством животных приходится сначала немного повозиться, чтобы установить управление их поведением с помощью стимулов, но часто к тому времени, как берете под контроль сигналов третий или четвертый тип поведения, оказывается, что животное как бы обобщает, у него появляется нечто вроде понимания идеи. Выучив три-четыре условных поведенческих акта, большинство субъектов, по-видимому, начинают распознавать определенные события в качестве сигналов, каждый из которых означает свой тип поведения, и что получение подкрепления зависит от правильного распознавания и ответа на сигналы. С этого момента введение условных сигналов становится простым. У субъекта уже имеется общая картина, и все что ему надлежит сделать — это научиться классифицировать новые сигналы и ассоциировать их с правильным поведением. Если вы, как дрессировщик, поможете питомцу, сделав это понятным, последующее обучение может идти само собой много быстрее, чем трудные начальные шаги.

У людей обобщение происходит еще быстрее. Если вы вознаградили за ответ только на одну выученную команду, люди очень скоро начинают давать ответы и на другие команды, чтобы заслужить подкрепление.

Итак, вы знаете о том, как сформировать новое поведение, а как вам избавиться от нежелательного поведения, которое уже имеется?

Существует восемь способов избавиться от нежелательного вида поведения. Всего восемь. И не важно, является ли это поведение укоренившимся, как в случае неряшливого соседа по комнате, или внезапным, как в случае детей, бесчинствующих в машине. Все, что вы можете предпринять по этим поводам, будет вариацией на тему одного из восьми методов. (Я не касаюсь здесь сложных сочетаний поведенческих проблем, которые возникают у человека с психическими нарушениями или у непредсказуемо свирепой собаки; я рассматриваю только отдельные проявления нежелательного поведения.)

Вот эти восемь методов.

Метод 1. “Убить зверя”. Это безусловно подействует. Вам никогда больше не придется снова иметь дело с данным поведением у данного субъекта.

Метод 2. Наказание. (Предпочитаемо всеми, хотя оно почти никогда не приносит действительной пользы.)

Метод 3. Отрицательное подкрепление.

Метод 4. Угашение: поведению предоставляется возможность исчезнуть самому по себе.

Метод 5. Выработка несовместимого поведения. (Этот метод имеет особую значимость для спортсменов и владельцев домашних животных.)

Метод 6. Добиться, чтобы данное поведение совершалось по сигналу. (В последующем вы перестанете давать этот сигнал. Это наиболее изощренный метод, применяемый тренерами дельфинов для того, чтобы избавиться от нежелательного поведения.)

Метод 7. “Формирование отсутствия”: подкрепляется все что угодно, кроме нежелательного поведения. (Вежливый способ превратить неприятных родственников в приятных.)

Метод 8. Смена мотивации. (Это основной и самый лучший способ.)

Подкрепление в повседневной жизни

Подкрепление в бизнесе

В нашей стране труд и управление традиционно стояли на противоположных позициях. Мысль о том, что все принимают участие в общей игре, никогда не была особенно популярна в американском бизнесе. Практика бизнеса исходила из того, что каждая из сторон старается получить от другой как можно больше, а дать как можно меньше. Конечно, на самом деле это молчаливо подразумевалось исходными позициями обучения, но некоторые администрации склонялись к другим подходам. В шестидесятые годы получили популярность “бережное обучение” и другие социально-психологические подходы, ставившие целью просветить администрацию по вопросам нужд и чувств сотрудников и служащих. Но можно быть сколь угодно хорошо осведомленным, но не знать при этом, как же решать каждую конкретную проблему. Положение в бизнесе таково, что одни занимают более высокое, другие более низкое положение, одни получают распоряжение, другие их отдают. В США ситуация в большинстве случаев не напоминает семейную и не должна был, таковой. Поэтому семейственный тип разрешения межличностных конфликтов на работе не проходит.

Среди последних публикаций о бизнесе меня в последнее время заинтересовали несколько сообщений, где описаны наиболее эффективные подходы, где используется подкрепление — от наиболее простых до совершенно блестящих. Например, один из консультантов по менеджменту советует в случае, если необходимо временно освободить от работы часть персонала, определить 10% худших и 20% лучших работников. Вы освобождаете самых слабых работников, но вы так же должны обязательно обеспечить 20% лучших, при этом они должны знать, что их оставляют потому, что они прекрасно работают. Очень здравая мысль. Помимо того, что вы убережете своих лучших работников от нескольких бессонных ночей и очень существенно положительно их подкрепите при вызывающих тревогу обстоятельствах, вы к тому же побуждаете средних работников либо стремиться к подкреплению, которое, как они видят, получено лучшими, либо хотя бы не попасть в низшую группу — кандидатов на вылет.

Подкреплением для менеджеров среднего уровня и среднего возраста может быть более интересная работа на их теперешнем месте, вместо перспективы повышения — с более высокой ответственностью они могут и не справиться (а могут и не желать занять более высокий пост, особенно если это связано с переездом).

Одна компания, занимающаяся компьютерной техникой, выплачивает денежные премии некурящим и тем, кто бросил курить, и в этом есть большой смысл: продукция, которую они выпускают, может быть испорчена частицами дыма. Другие способы подкрепления, находящие все большее применение, включают свободный выбор часов работы, так называемую “гибкую систему” (к ней особенно стремятся работающие матери), работу в самоуправляемых коллективах и .вознаграждение за проделанную работу, а не за потраченное на нее время. Все эти приемы управления делают упор на то, что работник действительно считает подкрепляющим — то, что нужно людям, а не только дает прибыль.