ТЕМА : ИНФОРМАЦИОННО-ПОИСКОВЫЕ ТЕЗАУРУСЫ
1. Информационно-посковый тезаурус
Словари типа тезаурус или идеографические впервые разработаны в лингвистике. Тезаурусы предназначены для облегчения поиска языковых средств выражающих данное понятие (идею). Классическим примером поискового тезауруса является: тезаурус английских слов и выражений первое издание которого было подготовлено Роджестоном 1852 г. подобные тезаурусы созданы и для других естественных языков. Лингвистический тезаурус разработан в связи с автоматизированной подготовкой текста.
Синтагматические связи – это соотношение единицы языка в данном высказывании.
В институте русского языка РАН создан тезаурус семантических (смысловых) и синтагматических связей между словами и словосочетаниями , русский язык как словарно-программное средство. Объём тезауруса 64 000 слов и словосочетаний.
ИПТ предназначен:
1. обеспечивать перевод с естественного языка на дескрипторный т.е для координатного индексирования документов и запросов.
2. отражать парадигматические отношения между лексическими единицами ИПТ, которые используются при составлении стратегии поиска.
Парадигматические отношения- это логические и ассоциативные отношения между ЛЕ ИПЯ.
3. служить терминологическим пособием.
ИПТ – это нормативный словарь дескрипторного ИПЯ с зафиксированными в нём парадигматическими отношениями ЛЕ.
Многоязычный ИПТ – это ИПТ содержащие ЛЕ взятые из нескольких естественных языков и представляющий эквивалентные по смыслу понятия на каждом из этих языков.
Целью создания ИПТ является повышение показателя поиска информации в ИПТ.
Макротезаурус – ИПТ включающий ЛЕ высокой общности и покрывающий широкую область знания.
Микротезаурус – специализированный ИПТ небольшого объёма составленный на основе выборки из более полного ИПТ и дополнительно включающий конкретные русские понятия определённой тематики.
Специализированный ИПТ или синоним монотематического ИПТ – ИПТ построенный для отражения области знания или практической деятельности.
Политематический ИПТ – ИПТ построенный для широкой совокупности областей знания.
Специализированный ИПТ – существует в большинстве науки и техники.
Количество разработанных микротезаурусов исчисляется только в нашей стране в несколько тысяч.
Макротезаурус и политематический ИПТ – предназначены для использования лексико-тематической основы при построении микротезауруса.
Политематический ИПТ включает только основную лексику той или иной отрасли и наиболее очевидные парадигматические отношения.
Микротезаурус включает специфические термины собствен. наимен. и развитую парадигмат.
В состав ИПТ входит вводная часть, основная часть (лексико-семантический указатель) и дополнительные части.
Вводная часть включает титульный лист и текстовые введения.
Введение содержит следующие данные:
1. цель создания и область применения ИПТ;
2. ссылки на источники используемые для сбора лексики ИПТ (др. ИПТ, терминологические словари);
3. описание порядка составления ИПТ;
4. описание состава и структуры ИПТ;
5. количественные характеристики ИПТ (общее число статей, число дескрипторов и аскрипторов);
6. перечень отношений между ЛЕ и методикой основания для их установления.
7. перечень всех символов и специальных сокращений допустимых для представления ЛЕ.
8. порядок алфавитного расположения ЛЕ.
9. описание состава и формы представления дополнительных данных в словарных статьях.
Лексико-семантический указатель – это основная часть ИПТ в которой в едином алфавитном ряду перечислены все дескрипторы и аскрипторы с указанием их парадигматических отношений.
ЛЕ ИПТ – слово, словосочетание, или лексическое значение компонентов сложного слова естественного языка включённое в ИПТ в качестве дескриптора или аскриптора.
Аскриптор (не дескриптор) – ЛЕ ИПТ которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.
В рамках дескрипторной статьи термины располагаются в следующем порядке:
1. заглавный дескриптор выделен при помощи шрифта. Например заглавными буквами;
2. дополнительные данные;
3. лексическое примечание (краткое объяснение уточнение значения дескриптора);
4. аскрипторы или дескрипторы синонимы (которые следуют за индексом «С»);
5. вышестоящие дескрипторы следующие за индексом «в»;
6. нижестоящие дескрипторы следующие за индексом «а»;
7. дескрипторы связанные другими видами отношений.
Вышестоящий дескриптор, широкий дескриптор- это дескриптор обозначающий либо родовое понятие, либо целое по отношению к данному дескриптору обозначающий часть этого целого.
Нижестоящий дескриптор или узкий дескриптор - дескриптор обозначающий либо видовое понятие, либо часть представляющую вышестоящий дескриптор.
Основными типами связи является: причина-следствие, процесс-объект, функциональное сходство, антонимия.
Неоднозначность ЛЕ устраняется релятором или лексическим примечанием.
Релятор является ЛЕ и поясняет её значение относя её к определённой понятийной категории или предметно-тематической области.
Дополнительные части ИПТ:
- систематический указатель;
- иерархический и другие указатели и списки специальных категорий ЛЕ.
Дополнительные указатели служат для раскрытия учёта и контроля парадигматических отношений между дескрипторами, что требуется при составлении поисковых предписаний.
Списки указателей являются перечнем дескрипторов сгруппированных согласно принятой в ИПТ рубрикации.
При построении систематического указателя используется следующая общая категория:
1. название дисциплин и отраслей деятельности;
2. предметы, материалы;
3. методы, процессы, операции, явления;
4. свойства, величины, параметры, характеристики;
5. отношения структуры, модели, законы, правила, абстрактные понятия.
Каждый дескриптор относится только к одной рубрике. Внутри рубрики дескриптор располагается в алфавитном порядке.
Иерархический – представляет собой перечень списков дескрипторов, причём каждый список начинается с дескриптора не имеющего вышестоящих.
После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием иерархических , путём применения нумерации. Либо графические обозначения уровня.
Основные преимущества дескрипторных ИПЯ:
Меньшая по сравнению с классификационным ИПЯ трудоёмкость разработки;
Возможность осуществить поиск по любому заранее заданному сочетанию характеристик входящих в ИПЯ;
Возможность автоматического процесса индексирования документов.
Недостатки дескрипторных ИПЯ:
В основных отраслях характер дескрипторного ИПЯ затрудняет их использование для обмена информацией между системами с различными ИПЯ;
Неадекватное значение термина выбран в качестве дескриптора в различных дескрипторных ИПС.
2. Анализ информационно-поискового тезауруса
2.1 Информационно-поисковый тезаурус по сохранности документов (БАН)
1. Первый отечественный двуязычный тезаурус по сохранности документов, подготовленный в Библиотеке Российской академии наук. тезаурус насчитывает 5 166 терминов.
Издание представляет собой образец смешанного двуязычного (русско-английского) тезауруса. Основным языком выбран английский. Это значит, что в качестве дескрипторов выбраны английские термины, а русские термины приводятся как синонимы.
Настоящий информационно-поисковый тезаурус предназначен для индексирования документов и обработки запросов по обеспечению сохранности (хранению) документов в традиционных и нетрадиционных информационных системах. Тезаурус может использоваться как специальный двуязычный словарь при выполнении переводов с русского на английский и с английского на русский язык, а также как терминологический словарь справочник.
В состав тезауруса входят:
- лексико-семантический указатель;
- иерархический указатель;
- хронологический идентификатор.
2.Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation».
В лексико-семантическом указателе тезауруса расположены дескрипторные и аскрипторные статьи.
В рамках дескрипторной статьи термины располагаются в следующем порядке:
- заглавные дескрипторы выделены заглавными буквами;
- дополнительные данные;
- аскрипторы или дескрипторы синонимы, которые следуют за индексом «с»;
- вышестоящие дискрипторы следующие за индексом «в»;
- нижестоящие дескрипторы следующие за индексом «н».
Пример:
ACCTSS CONTROL
cVisitorscontrol
Контроль и управление доступом
вORGANIZATION OF SECURITY SISTEMS
нACCESS CONTROL
3. В дескрипторных статьях тезауруса отсутствуют: