Смекни!
smekni.com

Изобретание, проектирование, разработка и сопровождение) Том Интеллектуальные системы (Системы решения проблем)  Альберт Александрович Красилов (стр. 27 из 85)

Рекурсивные определения весьма полезны, так как они экономят место и время не только при определении понятия, сколько в освоении, применении и использовании определяемого понятия. При конструировании рекурсивных определений необходимо соблюдать указанное правило, в особенности в тех случаях, когда несколько рекурсивных определений переплетаются между собой. Необходимо точно обнаружить число начальных значений для каждого понятия. Практически сложные рекурсивные определения могут встретиться главным образом в математике.

Правило 5. Определение должно быть внутренне и внешне логически непротиворечивым. О внутренних противоречиях уже частично говорилось. Определение может быть логически противоречивым другим определениям (внешнее противоречие), что недопустимо. Например, в формальной логике С определяется так: С = А и С = not А. Тогда знание об этом понятии есть (С = А) & (С = not А) равно ложь. Знание разрушается полностью. Определение может быть внутренне противоречиво. Рассмотрим также формальный пример из формальной логики: С=А \/ В и С=А \/ not В, тогда знание о понятии С есть (С=А \/ В)&(С=А \/ not В) равно С & А, что уничтожает знания частично (частичное разрушение знания, которое, вообще говоря, допустимо, но должно быть контролируемо).

Поиск логических противоречий для определения или системы определений является сложной проблемой при конструировании Интеллсист. Некоторые вопросы разрешения таких проблем рассматриваются в томе 5. Практическая рекомендация может быть такой: используйте Интеллсист для определения противоречий, если ручная работа не приводит к окончательному результату проверки с помощью рассматриваемого правила построения определения.

Правило 6. Определение должно быть положительным, а в исключительных случаях допускать отрицательность. Цель каждого определения заключается в том, чтобы ответить на вопрос, чем же является данный предмет, явление или процесс, который отражается в понятии. Определение должно в утвердительной форме указывать признаки, определяющие понятие. В определении их должно быть строго конечное число. Вся сумма признаков чаще всего (или теоретически) бывает бесконечной. Поэтому указание на отсутствующие признаки (негативное определение) не позволяет перечислить требуемое конечное число признаков, характеризующие предмет, явление или процесс.

Если определение построено на основе указаний тех вещей, которые не относятся к данному понятию, то пользователь понятия встретится с многочисленными противоречиями при использовании его в БЗ или запросе. Однако определение может содержать указание классов вещей, которые не относятся к данному понятию. Примеров тому много. Простейший пример Х < 0 может полностью определить величину Х в некоторой математической задаче. Х такой, что все (класс) положительные числа, включая 0, не характеризуют Х. Использование отрицания признаков также допускается, например, в тех случаях, когда число признаков конечно или равно нулю. Пустое множество определяется как множество, не содержащее элементов. Это вполне понятное определение. Здесь использовано конечное число признаков (один признак): имеются элементы или не имеются. В п.5 перечисления правил дано отрицательное определение в силу того, что определение может быть либо противоречивым, либо непротиворечивым.

Правило 7. Определение должно быть ясным и четким и не должно содержать двусмысленностей. Это требование удовлетворяет запросам человека, познающего определения. Здесь понятие двусмысленности нужно понимать обще и не сводить его только к возможным противоречиям. Однако, с такой точки зрения формальное определение удовлетворительно (в соответствии с некоторым формализмом), так как они подвергаются формальной проверке машиной. Для Интеллсист формальные определения ясны и четки, даже если они не понятны человеку. Любая формализация имеет содержательное пояснение. Поэтому проблемы формализации определения или обратная задача - толкование определения понятий актуальны, они являются проблемами концептуальной информатики.

Перечисленные правила применяются чаще всего комплексно, каждое правило может применяться в каждом определении понятия. Их комплексное применение к определениям понятий служит критерием в оценке самого определения.

6.4. Словари и смысл текста

Формальную модель русского языка (или другого ЕЯ) построить сложно, а, скорее всего, невозможно, поскольку его развитие связано не только с непрерывным пополнением словарного запаса, но и с быстрым формированием новых лексиконов или его более быстрым пополнением (по сравнению со словным словарем). Главный аргумент против построения формальных моделей ЕЯ состоит в том, что грамматика ЕЯ не формализует смысл текста, а определяет правила построения слов, предложений и текста. Правила ЕЯ не определяют смысла терминов и всего текста.

Однако следует иметь в виду, что словарь из слов и грамматические правила ЕЯ для их формирования полезен как вспомогательная информационная база для поиска смысла терминов и текста. Поэтому создание словарного машинного фонда, в частности русского языка, является фундаментальной постановкой проблемы развития ИП. Наряду с созданием такого фонда для каждого ЕЯ необходимо создание машинного фонда терминов русского языка по специальности или специализации, а точнее надо сказать лексикона данной специальности, в котором термины содержат не только определения для человека, но и все характеристики всех терминов [Машина86]. Это фундаментальная проблема машинной лингвистики, или лингвистической информатики. Работа по созданию машинных фонда слов и фондов терминов может осуществляться автоматизировано или автоматически на ВМ без привлечения формальных средств, например ФЯ. Использование словарей связано со многими задачами:

- реализация анализа текстов со знаниями для их отладки,

- ввод знаний в БЗ и их автоматический анализ,

- определение смысла текстов,

- реализация информационно-справочных систем,

- консультация пользователей для ручной работы,

- поддержка машинных методов информатики лингвистики,

- поиск ошибок всех сортов в текстах,

Это составляет задачи практической работы знаниеведа над словарями.

В качестве примера рассматривалась частная проблема создания вопросно-ответной системы по налогам. В результате автоматического построения словаря из слов по текстам законов, указов, инструкций и других законодательных или подзаконных актов, которые были представлены текстуально в 1150 файлах, было обнаружено 46177 слов с вариацией окончаний, с ошибками в записях слов (их примерно до 10%), без учета переноса слова на следующую строчку. Перенос слов вносит дополнительные ошибки (их 20%). Программа составления словаря работала несколько минут над текстом размером 13 Мб. В словарь попали около 3500 английских слов.

Работа знаниеведа по редактированию словаря состоит из следующих частей:

- устранение ошибочных слов (пропуски букв, замена необходимой буквы на случайную букву, окончание перенесенного слова, использование при записи слов русского языка регистра латинских букв, слипание слов, слипание чисел со словами и др.),

- конструирование слов ЯПП из базы и конца слова привело к тому, что в результате осталось в словаре 19500 слов из 46177,

- пополнение фундаментального словаря русских слов и создание машинного словаря для многих применений,

- исследование частоты использования слов в указанных текстах позволяет строить эффективные алгоритмы кодирования и обработки и правильно строить терминологические словари,

- автоматическое построение словаря терминов (по алгоритму вычисления корреляционной функции текста) также как и словарей из слов позволяет строить эффективные алгоритмы кодирования,

- составление словаря терминов с помощью инструментария Интеллсист и смыслового наполнения каждого понятия, что обеспечивает надежность результатов построения словарей.

Эти виды работ реализуются вначале деятельности по созданию БЗ в конкретной специальности или области деятельности (данной профессии) перед загрузкой БЗ профессиональными знаниями.

Конечно, анализ ЕЯ в США и Японии не ведется в полной мере, поскольку программирование насущных задач является прибыльным делом, а построение фондов слов и терминов пока не находит явного спроса на рынке программ. Сформулирован математический формализм ИП, который позволяет реализовать смысловой анализ текстов для решения насущных проблем. Поэтому проблемы создания фондов являются также насущными, без разрешения этих проблем невозможно создание многих Интеллсист и широкое внедрение ИП.

Вопросы создания ФЯ представления знаний необходимо разрешить только в условиях создания ИИС, но ни в коем случае для пользователя. О существовании формализма пользователь ничего не должен знать.

Всегда представляет интерес статистический анализ текстов на ЯПП. Ниже рассматривается статистика, которая получена при формировании словарей конкретной области знания. Будем предполагать, что приводимая ниже статистика характерна для каждого ЯПП (возможно с некоторыми отклонениями). Всего в области после редактировании словаря из слов обнаружено 14915 слов. Разделим словарь по первой букве. Тогда получим, исключая буквы из набора (ъ, Ъ, ы, Ы, ь, Ь), число слов в итоговом словаре, начинающихся с первой буквы (общее число букв стоит в числителе, для заглавных букв - в знаменателе):