Смекни!
smekni.com

Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике (стр. 18 из 19)

Определяющий набор признаков 1-го человека (размерность 7):


Умный – глупый

Шумный – тихий

Разумный – неразумный

Плотный – рыхлый

Дружественный–враждебный

Страшный – не страшный

Опасный – безопасный.

Исключения: горшок, теорема, наука, деньги

2-го человека (размерность 6):

Сильный – слабый

Приятный – неприятный

Опасный – безопасный

Страшный – не страшный

Дружественный–враждебный

Удобный – неудобный.

Исключения: работа, жена, наука, деньги, тортик

3-го человека (размерность 2):

Приятный – неприятный

Опасный – безопасный.

Исключения: нет


ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ,ПОЛУЧЕННЫЕ ЛИЧНО АВТОРОМ

1. Предложены следующие приемы, упрощающие и делающие более гибким процесс вербализации (семантического анализа – осмысления в терминах проблемной области) извлеченного из сети набора правил:

a) На основе гипотезы о неединственности извлекаемых правил и учитывая, что разные фрагменты сети (поднаборы правил) будут более или менее правдоподобны и интерпретируемы, предложено конструирование новой, более понятной пользователю нейронной сети из наиболее просто интерпретируемых фрагментов других сетей, решающих ту же задачу.

b) Предложено добавление выходного сигнала некоторого фрагмента сети (содержательно интерпретируемого и правдоподобного с точки зрения пользователя) в качестве нового интегрального признака в число независимых признаков таблицы данных, и решение задачи извлечения знаний на основе полученного расширенного набора признаков.

2. Разработано техническое задание на новую версию программы-нейроимитатора, реализующую предложенные технологии.

3. Усовершенствован метод семантического дифференциала Осгуда при помощи технологии разреживания обучаемых нейронных сетей. Проведена серия экспериментов, заключающихся в исследовании индивидуальных смысловых пространств, проинтерпретированы их результаты.

4. Предложена гипотеза о структуре индивидуального пространства смыслов: оно состоит из многообразия малой размерности, задаваемого культурой («ман-многообразия» от немецкого безличного местоимения «man») и сравнительно небольшого множества индивидуальных отклонений, которые могут быть важны для диагностики.


Приложение 2.

Статья: Горбань П.А. Нейросетевой анализ структуры индивидуального пространства смыслов. "Нейрокомпьютеры": разработка, применение. 2002, No 4. С. 14-19.


УДК 681.31

Нейросетевой анализ структуры индивидуального пространства смыслов

П.А.Горбань

Усовершенствован метод семантического дифференциала Осгуда при помощи технологии разреживания обучаемых нейронных сетей. Проведена серия экспериментов, заключающихся в исследовании индивидуальных смысловых пространств, проинтерпретированы их результаты. Предложена гипотеза о структуре индивидуального пространства смыслов: оно состоит из многообразия малой размерности, задаваемого культурой («ман-многообразия» от немецкого безличного местоимения «man») и сравнительно небольшого множества индивидуальных отклонений, которые могут быть важны для диагностики. Каждая культура имеет небольшое количество специфических для нее ман -многообразий (субкультур).

The method of the semantic differential by Osgood was improved using the technology of pruning neural networks. The series of the experiments, consists of the research of the individual meaning space was made, and there given an interpretation of their results. A hypothesis about the structure of the individual meaning space, concluding in that this consists of the manifold of small dimention (man-manifold, from the german indefinite pronoun «man») and a small quantity of individual divertions, which could be important for the psychodiagnostics, was proposed. Every culture have a small amount of its specific man-manifolds (subcultures).

Слова осмысляются человеком не через "толковый словарь", а через ощущения, переживания. За каждым словом у человека стоит несколько этих базовых переживаний: собака - это что-то маленькое, добродушненькое, пушистое, с мокрым язычком, …, но это и здоровенный, грозно рычащий зверь со злобными глазами, огромными клыками, … . Большинство слов кодирует некоторые группы переживаний, ощущений, и определить смысл слова, то есть эти самые переживания – довольно сложная задача.

Дж. Осгуд с соавторами в работе под названием “Измерение значений” ввели для решения этой задачи метод “семантического дифференциала” (обзор литературы дан в работе [1]). Они предложили искать координаты слова в пространстве свойств следующим образом. Был собран некоторый набор слов (например, "мама", "папа" и т.д.) и набор признаков к этим словам (таких, как близкий - далекий, хороший - плохой, и т.д.), и опрашиваемые люди оценивали слова по этим шкалам. Затем отыскивался минимальный набор координат смысла, по которому можно восстановить все остальные. Было выделено 3 базовых координаты смысла, по которым все остальные можно предсказать достаточно точно: сильный - слабый, активный - пассивный и хороший - плохой. С другой стороны, выявились огромные различия между культурами, например, у японцев и американцев очень многие вещи имеют существенно разные смысловые характеристики.

Существуют различные способы выделения основных признаков (базовых координат), например, метод главных компонент, факторный анализ и др. В данной работе используются нейросетевые методы. Разработка технологии сокращения описания и извлечения знаний из данных с помощью обучаемых и разреживаемых нейронных сетей началась в 90-е годы XX века (см., например, [2-4]) и к настоящему времени созданы библиотеки нейросетевых программ даже для PC, позволяющие строить полуэмпирические теории в различных областях [5-7].

В данной работе с помощью нейроимитатора исследовались индивидуальные смысловые пространства. Был создан вопросник, в котором определяются координаты (от –10 до 10) 40 слов по 27 параметрам и были проведены эксперименты на нескольких людях.

Слова:


43.Папа

44.Мама

45.Болезнь

46.Детский сад

47.Школа

48.Собака

49.Кот

50.Воробей

51.Ворона

52.Апельсин

53.Яблоко

54.Дед Мороз

55.Дерево

56.Змея

57.Еда

58.Тортик

59.Горшок

60.Брат

61.Сестра

62.Работа

63.Деньги

64.Квартира

65.Муж (жена)

66.Дедушка

67.Бабушка

68.Музыка

69.Президент

70.Парламент

71.Политика

72.Наука

73.Политик

74.Ученый

75.Теорема

76.Выборы

77.Коммунизм

78.Доказательство

79.Россия

80.Америка

81.Китай

82.Израиль

83.Религия

84.Бог


28.Плотный – рыхлый

29.Молодой – старый

30.Светлый – темный

31.Разумный – неразумный

32.Холодный – горячий

33.Быстрый – медленный

34.Близкий – далекий

35.Пугливый – бесстрашный

36.Страшный – не страшный

37.Спокойный – беспокойный

38.Веселый – грустный

39.Удобный – неудобный

40.Красивый – некрасивый

41.Опасный – безопасный

42.Приятный – неприятный

43.Ручной – дикий

44.Утонченный – грубый

45.Умный – глупый

46.Шумный – тихий

47.Ласковый – грубый

48.Большой – маленький

49.Дружественный – враждебный

50.Мягкий – твердый

51.Добрый – злой

52.Активный – пассивный

53.Хороший – плохой

54.Сильный – слабый


В экспериментах отыскивался минимальный набор координат смысла, по которому можно восстановить все остальные с точностью до тенденции (т.е. с точностью до 3 баллов). Это делалось при помощи нейросетевого имитатора NeuroPro [5]. Следует отметить, что предсказание с точностью до 3 баллов фактически соответствует переходу от 21-балльных шкал (от –10 до 10) к традиционным 7-балльным (от –3 до 3).

С помощью NeuroPro возможно получение показателей значимости входных сигналов для принятия нейросетью решения, показателей чувствительности выходного сигнала сети к изменению входных сигналов, показателей значимости и чувствительности по отдельным примерам выборки.

За начальную архитектуру была взята слоистая нейронная сеть, состоящая из трех слоев по 10 нейронов в каждом. Далее проводились последовательно следующие операции.

3) Обучение нейронной сети с максимальной допустимой ошибкой обучения 0.49 балла (такая ошибка приводит к тому, что после округления ошибка обучения фактически равна 0). Как показал опыт, такой ошибки обучения чаще всего достаточно для предсказаний с требуемой точностью, то есть для ошибки обобщения, меньшей 3 баллов.

4) Из входных сигналов выбирался наименее значимый и исключался, после чего проводилось повторное обучение нейросети с новыми входными сигналами и прежней ошибкой обучения.

Эта процедура проводилась до тех пор, пока нейросеть могла обучиться. В результате этих операций были получены минимальные определяющие наборы признаков (т.е. наборы входных сигналов, оставшиеся после сокращения их числа).

Для разных людей получены очень разные результаты (первые результаты представлены в [8]), совсем непохожие на результаты Осгуда. Вот типичные примеры:

Определяющий набор признаков 1-го человека (размерность 7):

Умный – глупый, шумный – тихий, разумный – неразумный, плотный – рыхлый, дружественный – враждебный, страшный – не страшный, опасный – безопасный.