Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике (стр. 4 из 19)

Для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез имеет место во всех случаях решения реальных задач, и поэтому деление алгоритмов на "строгие статистические" и "нестрогие эвристические" не имеет смысла [10].

Фактически, выдвижение и проверку новых гипотез для рассматриваемой таблицы данных можно рассматривать часть процесса извлечения знаний.

На применимость и качество работы отдельных методов большое влияние оказывает тип признаков (характеристик) объектов – дискретный (качественный), номинальный (порядковый) или количественный.

Во всех случаях вопрос о том, что является полезной информацией, совсем не очевиден и требует специального рассмотрения.

Представления о характере полезной информации, содержащейся в эмпирических данных, а зачастую и сам характер подобных данных не позволяют использовать для их обработки классические статистические методы. В связи с этим возникли совершенно новые задачи обработки эмпирических данных, а значит, и новые методы решения таких задач.

Это прежде всего задачи регрессионного, авторегрессионного и факторного анализов. В последние годы регрессионный и факторный анализ развивались особенно интенсивно и обогатились рядом новых моделей и методов, например, такими, как модель структурных уравнений регрессии [11], или методы группировки параметров.

Другая группа задач обработки данных – получение типологии изучаемых объектов. С ними связаны распознавание образов, методы автоматической классификации и т.п.

Новые эффекты обнаружились при комбинированном применении методов формирования факторов и методов автоматической классификации с тем, чтобы с каждым фактором была связана своя типология. Оказалось, что полученные типологии легко поддаются интерпретации и их можно понимать как системы терминов, позволяющих достаточно коротко описывать отдельные явления. Удалось создать обобщенный подход к обработке эмпирических данных самой различной природы, получивший название лингвистического [11].

1.2.2.3. Статистические методы извлечения знаний из таблицы данных

Рассмотрим статистические методы извлечения знаний из таблиц данных. Естественно, объем имеющейся выборки будет определять надежность статистического вывода – т.е. подтверждения или отклонения гипотезы или доверия к полученным параметрам модели. При этом неотрицательный результат статистической проверки гипотезы не означает, что высказанное предположение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся выборочным данным, однако таким же свойством могут наряду с этой гипотезой обладать и другие гипотезы [9].

Кратко перечислим существующие на данный момент методы:

1. Проверка гипотезы об аномальном измерении.

2. Проверка гипотез о выборочных значениях характеристик случайной величины.

3. Проверка гипотезы о распределении случайной величины и нахождение параметров этого распределения.

4. Корреляционный анализ.

5. Линейный регрессионный и авторегрессионный анализ.

6. Факторный анализ и анализ главных компонент.

7. Байесовские классификаторы в задаче бинарной классификации.

8. Построение линейных и кусочно-линейных разделяющих поверхностей в задаче бинарной классификации.

9. Автоматическая группировка объектов – методы автоматической классификации (кластеризации).

1.2.3. Методы идентификации систем

Под идентификацией понимается построение модели, с заданной точностью описывающей реакцию наблюдаемого объекта на внешнее воздействие (описываемое набором входных, независимых переменных).

Задаче идентификации посвящено огромное количество работ (см., например, библиографию в [13]), отличающихся не только типами объектов, которые необходимо идентифицировать, но и самими методами и алгоритмами идентификации. Среди алгоритмов идентификации чаще всего используются рекуррентные алгоритмы, позволяющие осуществлять идентификацию в режиме нормальной работы объекта. Иными словами, для рекуррентных алгоритмов не формируется обучающая выборка (таблица данных), а адаптация модели ведется с использованием только текущей пары "вход объекта – выход объекта". Однако нет никаких ограничений на использование рекуррентных алгоритмов для обработки таблицы ранее собранных данных об объекте.

Принципы формирования алгоритмов идентификации тесно связаны с выбором уравнения, использующего наблюдаемые данные и аппроксимирующего уравнение объекта, выбором критерия качества аппроксимации (функции потерь), выбором метода оптимизации критерия. Этот выбор до последнего времени был в значительной мере произволен и обусловил господство линейной аппроксимации уравнения объекта и квадратичного критерия (при этом задача идентификации сводилась к решению системы линейных уравнений). Но практика показала, что такой выбор не всегда приводит к положительным результатам.

В настоящее время разработана информационная теория идентификации [13], позволяющая оптимально выбирать уравнение аппроксимации, критерий, и алгоритм идентификации в зависимости от точки приложения к объекту помех, наличия той или иной информации о плотности распределения помех и параметров этого распределения, используемой целевой функции, априорной информации об искомом решении. Показана возможность улучшения алгоритмов за счет управления входными воздействиями.

1.2.4. Другие методы обработки данных

Существуют и другие методы обработки таблиц данных:

1. Метод потенциальных функций [14] для решения задач классификации объектов с учителем.

2. Методы непараметрической обработки данных:

- байесовские классификаторы на основе непараметрических оценок условных плотностей распределения вероятности [12];

- непараметрическая регрессия;

- непараметрические алгоритмы идентификации объектов;

Однако использование этих методов для приобретения знаний невозможно, поскольку при этом не возникает нового отдельного "объекта" (например, регрессионного уравнения, уравнения разделяющей поверхности,…), которым можно манипулировать и который можно пытаться интерпретировать – такой объект заменяется обучающей выборкой. Конечно, для каждого метода можно определить оптимальные значения некоторых параметров ("заряды" классов для метода потенциальных функций, параметры сглаживания и вид ядерных функций для непараметрических методов), минимизирующих ошибку классификации или предсказания, но нахождение оптимальных значений этих параметров трудно интерпретировать как прибавление новых знаний.

1.3. Требования к технологии извлечения знаний

Возможности применения технологии извлечения знаний должны распространяться вплоть до индивидуального пользователя, имеющего возможность применять технологию извлечения знаний к доступных данных и конкретизирующего отдельные аспекты этой технологии в зависимости от своего собственного опыта и конкретной задачи. Это означает, что должно произойти коренное изменение технологии производства таких систем. Системы принятия решений, основанные на явных правилах вывода, создаются, как правило, группой специалистов, в числе которых – математики, программисты и предметные специалисты, ставящие задачи. Возможности настройки таких систем на конечного потребителя часто недостаточны. Приобретая такую систему, он часто сталкивается с ее неприменимостью к конкретным условиям работы (например, другой спектр лабораторных анализов или методов обследования, принятый в данной клинике). Выход – дать специалисту возможность самому конструировать ЭС исходя из конкретных условий, собственного опыта и опыта коллег. Такое конструирование должно производиться без знания предметным специалистом математического аппарата, требуя только обычных навыков работы на ЭВМ. В этой ситуации снимается психологическая проблема доверия к заключениям ЭС, которая работает, опираясь на опыт и знания того специалиста, который ее сконструировал, его коллег, которым он доверяет, и реальные данные, которые он сам получил в результате наблюдений [15].

Самообучающиеся ЭС принятия решений, диагностики и прогнозирования должны удовлетворять следующим требованиям [15]:

1. Индивидуализация (настройка на конкретные наборы экспериментальных данных, индивидуальный опыт и знания специалиста);

2. Динамическое развитие (накопление опыта системы в процессе функционирования, следуя изменениям в пунктах, перечисленных в предыдущем требовании);

3. Возможность перенастройки при резком изменении условий, например, при перенесении в другой регион;

4. Способность к экстраполяции результата. Требование, обратное индивидуальности. Система не должна резко терять качество работы при изменении условий;

5. Возможность конструирования с нуля конечным пользователем (специалист должен иметь возможность придумать совершенно новую ЭС и иметь возможность просто и быстро создать ее);

6. “Нечеткий” характер результата. Решение, выдаваемое системой, не должно быть окончательным. Оно может быть вероятностным или предлагать сразу несколько вариантов на выбор. Это дает возможность специалисту критически оценивать решение системы и не лишает его инициативы в принятии окончательного решения.

7. ЭС является только советчиком специалиста, не претендуя на абсолютную точность решения. Она должна накапливать опыт и знания и значительно ускорять доступ к ним, моделировать результат при изменении условий задачи. Ответственность за решение всегда лежит на специалисте.