Методы принятия решений в играх с природой зависят от характера неопределенности, точнее от того, известны или нет вероятности состояний (стратегий) природы, т.е. имеет ли место ситуация риска или неопределенности. Ниже будут описаны методы, применяемые в обоих случаях.
Рассмотрим организацию и аналитическое представление игры с природой. Пусть игрок 1 имеет т возможных стратегий: А1, A2 , ... , Аm, а у природы имеется п возможных состояний (стратегий): П1, П2, ..., Пn, тогда условия игры с природой задаются матрицей А выигрышей игрока 1:
Платит, естественно, не природа, а некая третья сторона (или совокупность сторон, влияющих на принятие решений игроком 1 и объединенных в понятие «природа»).
Возможен и другой способ задания матрицы игры с природой: не в виде матрицы выигрышей, а в виде так называемой матрицы рисков R = ||rij||m,n или матрицы упущенных возможностей. Величина риска - это размер платы за отсутствие информации о состоянии среды. Матрица R может быть построена непосредственно из условий задачи или на основе матрицы выигрышей А.
Риском rij игрока при использовании им стратегии Аi и при состоянии среды Пj будем называть разность между выигрышем, который игрок получил бы, если бы он знал, что состоянием среды будет Пj, и выигрышем, который игрок получит, не имея этой информации.
Зная состояние природы (стратегию) Пj, игрок выбирает ту стратегию, при которой его выигрыш максимальный, т.е. rij = bj – aij при заданном j. Например, для матрицы выигрышей
Согласно введенным определениям rij и bj получаем матрицу рисков
Независимо от вида матрицы игры требуется выбрать такую стратегию игрока (чистую или смешанную, если последняя имеет смысл), которая была бы наиболее выгодной по сравнению с другими. Необходимо отметить, что в игре с природой понятие смешанной стратегии игрока не всегда правомерно, поскольку его действия могут быть альтернативными, т.е. выбор одной из стратегий отвергает все другие стратегии (например, выбор альтернативных проектов). Прежде всего следует проверить, нет ли среди стратегий игрока мажорируемых, и, если таковые имеются, исключить их.
3.2. ПРИНЯТИЕ РЕШЕНИЙ В УСЛОВИЯХ ПОЛНОЙ НЕОПРЕДЕЛЕННОСТИ
Неопределенность, связанную с отсутствием информации о вероятностях состоянии среды (природы), называют «безнадежной» или «дурной».
В таких случаях для определения наилучших решении используются следующие критерии: максимакса, Вальда, Сэвиджа, Гурвица. Альтернативные подходы, в частности принципы Байеса - Лапласа, рассматриваются в разд. 6.2.1.
Применение каждого из перечисленных критериев проиллюстрируем на примере матрицы выигрышей (3.1) или связанной с ней матрицы рисков (3.2).
Критерий максимакса. С его помощью определяется стратегия, максимизирующая максимальные выигрыши для каждого состояния природы. Это критерий крайнего оптимизма. Наилучшим признается решение, при котором достигается максимальный выигрыш, равный
.Нетрудно увидеть, что для матрицы А наилучшим решением будет А1, при котором достигается максимальный выигрыш - 9.
Следует отметить, что ситуации, требующие применения такого критерия, в экономике в общем нередки, и пользуются им не только безоглядные оптимисты, но и игроки, поставленные в безвыходное положение, когда они вынуждены руководствоваться принципом «или пан, или пропал».
Максиминный критерий Вальда. С позиций данного критерия природа рассматривается как агрессивно настроенный и сознательно действующий противник типа тех, которые противодействуют в стратегических играх (см. гл. 2). Выбирается решение, для которого достигается значение
.Для платежной матрицы А (3.1) нетрудно рассчитать:
• для первой стратегии (i = 1)
;• для второй стратегии (i=2)
;• для третьей стратегии (i=3)
.Тогда
, что соответствует второй стратегии A2 игрока 1.В соответствии с критерием Вальда из всех самых неудачных результатов выбирается лучший (W = 3). Это перестраховочная позиция крайнего пессимизма, рассчитанная на худший случай. Такая стратегия приемлема, например, когда игрок не столь заинтересован в крупной удаче, но хочет себя застраховать от неожиданных проигрышей. Выбор такой стратегии определяется отношением игрока к риску.
Критерий минимаксного риска Сэвиджа. Выбор стратегии аналогичен выбору стратегии по принципу Вальда с тем отличием, что игрок руководствуется не матрицей выигрышей А (3.1), а матрицей рисков R (3.2):
Для матрицы R (3.2) нетрудно рассчитать:
• для первой стратегии (i=1) ;
• для второй стратегии (i=2) ;
• для третьей стратегии (i=3) .
Минимально возможный из самых крупных рисков, равный 4, достигается при использовании первой стратегии А1.
Критерий пессимизма-оптимизма Гурвица. Этот критерий при выборе решения рекомендует руководствоваться некоторым средним результатом, характеризующим состояние между крайним пессимизмом и безудержным оптимизмом. Согласно этому критерию стратегия в матрице А выбирается в соответствии со значением
При p = 0 критерий Гурвица совпадает с максимаксным критерием, а при р = 1 - с критерием Вальда. Покажем процедуру применения данного критерия для матрицы А (3.1) при р = 0,5:
• для первой стратегии
• для второй стратегии
• для третьей стратегии
Тогда
, т.е. оптимальной является вторая стратегия А2.Применительно к матрице рисков R критерий пессимизма-оптимизма Гурвица имеет вид:
При р = 0 выбор стратегии игрока 1 осуществляется по условию наименьшего из всех возможных рисков (
); при р = 1 - по критерию минимаксного риска Сэвиджа.В случае, когда по принятому критерию рекомендуется к использованию несколько стратегий, выбор между ними может делаться по дополнительному критерию, например в расчет могут приниматься средние квадратичные отклонения от средних выигрышей при каждой стратегии. Данная идея отвечает подходу, рассмотренному в разд.1.2 (см. рис. 1.1). Еще раз подчеркнем, что здесь стандартного подхода нет. Выбор может зависеть от склонности к риску ЛПР.
В заключение приведем результаты применения рассмотренных выше критериев на примере следующей матрицы выигрышей:
Для игрока 1 лучшими являются стратегии:
• по критерию Вальда – А3,
• по критерию Сэвиджа – А2и А3,
• по критерию Гурвица (при р = 0,6) – А3;
• по критерию максимакса – А4.
Поскольку стратегия А3, фигурирует в качестве оптимальной по трем критериям выбора из четырех испытанных, степень ее надежности можно признать достаточно высокой для того, чтобы рекомендовать эту стратегию к практическому применению.
Таким образом, в случае отсутствия информации о вероятностях состоянии среды теория не дает однозначных и математически строгих рекомендации по выбору критериев принятия решений. Это объясняется в большей мере не слабостью теории, а неопределенностью самой ситуации. Единственный разумный выход в подобных случаях - попытаться получить дополнительную информацию, например, путем проведения исследований или экспериментов. В отсутствие дополнительной информации принимаемые решения теоретически недостаточно обоснованы и в значительной мере субъективны. Хотя применение математических методов в играх с природой не дает абсолютно достоверного результата и последний в определенной степени является субъективным (вследствие произвольности выбора критерия принятия решения), оно тем не менее создает некоторое упорядочение имеющихся в распоряжении ЛПР данных: задаются множество состояний природы, альтернативные решения, выигрыши и потери при различных сочетаниях состояния «среда - решение». Такое упорядочение представлений о проблеме само по себе способствует повышению качества принимаемых решений.