Смекни!
smekni.com

Анализ методов прогнозирования и моделирование нейронных сетей для прогнозирования стоимости недвижимости (стр. 11 из 13)

Актуальность тематики прогнозирования продиктована поиском адекватных моделей нейронных сетей, определяемых типом и структурой НС. В ходе исследования установлено, что радиальные базисные сети обладают рядом преимуществ перед сетями типа многослойный персептрон. Во-первых, они моделируют произвольную нелинейную функцию с помощью одного промежуточного слоя. Тем самым отпадает вопрос о числе слоев. Во-вторых, параметры линейной комбинации в выходном слое можно полностью оптимизировать с помощью известных методов моделирования, которые не испытывают трудностей с локальными минимумами, мешающими при обучении МП. Поэтому сеть РБФ обучается очень быстро (на порядок быстрее МП).

С другой стороны, до того как применять линейную оптимизацию в выходном слое сети РБФ, необходимо определить число радиальных элементов, положение их центров и величины отклонений. Для устранения этой проблемы предлагается использовать автоматизированный конструктор сети, который выполняет за пользователя основные эксперименты с сетью.

Другие отличия работы РБФ от МП связаны с различным представлением пространства модели: «групповым» в РБФ и «плоскостным» в МП. Опыт показывает, что для правильного моделирования типичной функции, сеть РБФ требует несколько большего числа элементов. Следовательно, модель, основанная на РБФ, будет работать медленнее и потребует больше памяти, чем соответствующий МП (однако она гораздо быстрее обучается, а в некоторых случаях это важнее).

С «групповым» подходом связано, и неумение сетей РБФ экстраполировать свои выводы за область известных данных. При удалении от обучающего множества значение функции отклика быстро падает до нуля. Напротив, сеть МП выдает более определенные решения при обработке сильно отклоняющихся данных, однако, в целом, склонность МП к некритическому экстраполированию результата считается его слабостью. Сети РБФ более чувствительны к «проклятию размерности» и испытывают значительные трудности, когда число входов велико.


5. МОДЕЛИРОВАНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ СТОИМОСТИ НЕДВИЖИМОСТИ

5.1 Особенности нейросетевого прогнозирования в задаче оценки стоимости недвижимости

Использование нейронных сетей можно продемонстрировать на примере задачи оценки рыночной стоимости жилой недвижимости. Очевидно, что цена квартиры зависит от многих факторов, например, общей и жилой площади, количества комнат, этажа, территориального расположения дома, его этажности, состояния, наличия коммуникаций и др. Опытные риэлторы справляются с задачей оценки без труда, применяя свои знания и интуицию, опираясь на известные им аналоги и используя ассоциативное мышление. Все эти знания и умения относятся к числу плохо формализуемых, отчасти неосознаваемых, поэтому разработка однозначного алгоритма определения цены на основе значений влияющих факторов – крайне сложная и почти невыполнимая задача.

Вместе с тем, существует значительное число примеров уже оцененных квартир. Используя массив сведений о них, можно попытаться извлечь интересующую зависимость.

Для этого создается нейронная сеть, в которой количество входных нейронов соответствует количеству входных факторов, которые влияют на цену. В выходном слое будет всего один нейрон, соответствующий выходному фактору – цене.

Для обучения необходим массив обучающих примеров. Количество примеров должно быть достаточно большим – по некоторым расчетам, в 10-15 раз больше числа нейронов в сети. Примеры предъявляются ИНС, при этом веса связей внутри нее постепенно изменяются, с тем, чтобы реальный выходной сигнал был как можно ближе к ожидаемому значению выходного фактора. Один цикл предъявления всех учебных образцов называется эпохой. Обычно требуется несколько тысяч эпох, чтобы обучить нейронную сеть, но на современных компьютерах такое обучение занимает несколько минут.

Часть примеров не участвует в обучении, а выделяется в так называемое тестовое множество. На каждой эпохе работа сети проверяется на тестовом множестве. Таким образом тестируется способность ИНС к обобщению: возможности распространить выявленную закономерность к данным, не участвующим в обучении.

Обучение ИНС заканчивается, когда достигнуто заданное значение средней (или минимальной) ошибки, когда сеть исчерпала возможности обучения или же когда пройдено определенное число эпох. После этого веса связей фиксируются, и сеть может использоваться в рабочем режиме. Теперь, если в качестве входных сигналов сети указать параметры оцениваемой квартиры, значение на выходе будет представлять ее цену, рассчитанную на основе выявленной закономерности.

Согласно вышеизложенного материала можно увидеть главное отличие ИНС от экспертных систем. Если в экспертной системе знания извлекаются из опыта специалистов, то искусственная нейронная сеть сама накапливает опыт на основе просмотра набора аналогичных примеров, и фиксирует его в виде набора весов связей.

Не всегда нейронная сеть достигает хороших результатов обучения и обобщения. Среди возможных причин можно выделить следующие:

- неудачно выбрана архитектура сети (слишком много или слишком мало нейронов в скрытых слоях);

- недостаточно примеров для обучения;

- влияющие факторы выделены неудачно: в число входных параметров не включен один или несколько факторов, в наибольшей мере влияющий на значение выходных показателей;

- искомой зависимости не существует; обучающие примеры являются уникальными, аналогия между ними отсутствует.

Приведенные причины ранжированы по степени возрастания сложности их преодоления: если проблему, указанную в пункте 1, легко исправить, изменив число нейронов, то пункт 4 говорит о невозможности решения данной задачи методами нейросетей.

5.2 Обзор программных средств, реализующих алгоритмы нейровычислений для решения задач прогнозирования

Сегодня разработано большое количество программных продуктов, пригодных для применения там, где возникает необходимость использования технологии нейровычислений. Существуют универсальные нейросетевые пакеты, предназначенные для решения любых задач, которые можно решить при помощи нейронных сетей, от распознавания речи и образов до решения задач прогнозирования, но, как показывает практика, такие программные продукты не всегда удобны для решения задач прогнозирования временных рядов. Существует класс нейросетевых программных продуктов, предназначенных исключительно для решения задач прогнозирования временных рядов. Наиболее популярные сегодня следующие программные продукты, реализующие нейросетевые подходы к решению задач прогнозирования.

1. Matlab – настольная лаборатория для математических вычислений, проектирования электрических схем и моделирования сложных систем. Имеет встроенный язык программирования и весьма богатый инструментарий для нейронных сетей – AnfisEditor (обучение, создание, тренировка и графический интерфейс), командный интерфейс для программного задания сетей, nnTool – для более тонкой конфигурации сети.

2. Statistica – мощнейшее обеспечение для анализа данных и поиска статистических закономерностей. В данном пакете работа с нейросетями представлена в модуле STATISTICANeuralNetworks (сокращенно, STNeuralNetworks, нейронно-сетевой пакет фирмы StatSoft), представляющий собой реализацию всего набора нейросетевых методов анализа данных.

3. BrainMaker – предназначен для решения задач, для которых пока не найдены формальные методы и алгоритмы, а входные данные неполны, зашумлены и противоречивы. К таким задачам относятся биржевые и финансовые предсказания, моделирование кризисных ситуаций, распознавание образов и многие другие.

4. NeuroShellDayTrader - нейросетевая система, которая учитывает специфические нужды трейдеров и достаточно легка в использовании. Программа является узкоспециализированной и как раз подходит для торговли, но по своей сути слишком близка к черному ящику.

5. Остальные программы являются менее распространенными.

В данной исследовательской работе для решения задачи прогнозирования с помощью нейронных сетей был применен пакет Statistica.

5.3 Исходные данные для решения поставленной задачи

Хотя нейросетевые модели являются весьма эффективными в задачах оценки, их построение связано с двумя группами проблем, которые необходимо учитывать при предобработке данных. Во-первых, в отличие от ряда развитых стран (например, США, за исключением нескольких штатов), в Украине отсутствует система обязательного публичного раскрытия информации о сделках с недвижимостью, при которой сумма сделки и основные характеристики помещения, подлежащего продаже или сдаче в аренду, предоставляются в форме анкеты в соответствующие органы и агрегируются на открытых веб-сайтах. В связи с этим информация о сделках с недвижимостью крайне ограничена и не вполне достоверна.

Для решения этой проблемы были применены несколько методов, что позволило существенно повысить качество исходных данных. Семантические анализаторы, основанные на регулярных выражениях, применялись для анализа текстов объявлений и выявления в них максимума информации, заданной в неформализованном текстовом виде. Набор решающих правил позволил исключить заведомо абсурдные анкеты, содержащие неправдоподобное сочетание признаков объекта недвижимости. Матрицы граничных значений, составленные на основе эмпирических данных рынка недвижимости и статистического анализа выбросов, позволили отсечь объявления с заведомо недостоверной ценовой информацией.

Во-вторых, классические приёмы математического моделирования экономических процессов лучше всего работают в случае, когда все зависимые факторы являются количественными. В задаче определения цены объекта недвижимости факторное пространство устроено значительно сложнее. Большинство ценообразующих факторов являются неупорядоченными (например, престижность района) или упорядоченными категориями (близость к реке: район граничит с рекой или нет). Важную роль играет также расположение объекта – географический фактор, кодирование которого представляет собой нетривиальную задачу. Простое использование географических координат не является решением проблемы, т.к. координаты – не ценообразующие факторы.