Процесс индексирования содержания документа всегда начинается с его анализа. Цель анализа - выявление в тексте документа смысловых компонентов — значимых элементов содержания, которые потенциально могут использоваться в информационном поиске. Смысловые компоненты являются основой для формулировки индексов любого информационно-поискового языка.
Выявление смысловых компонентов осуществляется только по самому документу. Библиографическая запись не может заменить документ в качестве объекта индексирования.
Выделенные смысловые компоненты должны точно передавать содержание документа, не расширяя и не сужая его. Например, если в документе идет речь только о конкретном промышленном предприятии, недопустимо вводить смысловой компонент, обозначающий всю отрасль промышленности или тип предприятия. Кроме того, название любого объекта (имя лица, название организации и т. п.), вопроса, темы, входящих в смысловой компонент, должно быть сформулировано с конкретностью, достаточной для его идентификации.
В обязательном порядке выделяются смысловые компоненты, отражающие основные темы индексируемого документа. Компоненты содержания, отражающие второстепенные темы документа, могут выделяться выборочно, с учетом их поисковой актуальности, обеспеченности материалом, содержания потенциальных запросов и т. д. Глубина анализа должна быть достаточной для адекватного отражения содержания документа любым языком индексирования.
Если при анализе документа компоненты содержания не детализировать сразу в той мере, в какой требует документ, впоследствии возникнет необходимость повторного обращения к документу, когда для накопившегося массива БЗ уровень глубины и детализации информации о темах окажется недостаточным.
Принято выделять несколько категорий смысловых компонентов, различающихся набором выявляемых сведений и правилами формулирования:
· персоналии (индивидуальные и родовые)
· наименования организаций
· географические названия
· унифицированные заглавия
· темы
Эти категории выделяются не только по содержанию, но и по общности правил формулирования. Так, например, индивидуальная персоналия (“Сидоров И. И.”) будет входить в категорию «персоналии», а обобщенная персоналия (“Математики”) — в категорию «темы», несмотря на то, что также обозначает людей.
Для каждой категории смысловых компонентов определен минимально необходимый набор выявляемых сведений.
Задача аналитико-тематического индексирования — с необходимой и достаточной для данной системы полнотой и точностью представить в виде тематических рубрик основное содержание документа, а при необходимости — его форму и назначение для обеспечения эффективного информационного поиска. Такая рубрика — краткая формулировка предмета (факта, события, аспекта и т. п.) рассматриваемого в документе.
Язык аналитико-тематического индексирования является контролируемым языком. Его использование предполагает обязательное наличие:
· списка рубрик, включающего: перечень одночленных тематических рубрик, вариантные формы рубрик, а также различные примечания, уточняющие их содержание, возможности применения, статус и т.д.
· четкого соблюдения правил (методики) аналитико-тематической обработки;
· авторитетного / нормативного контроля правильности ведения и использования списка аналитико-тематических рубрик на основании методики аналитико-тематического индексирования.
Среди категорий рубрик выделяются имена личные и родовые, географические названия, наименования организаций и унифицированные заглавия произведений. Они формулируются по правилам, принятым в для формулирования нормируемых точек доступа - для заголовков БО и описанным выше. Аналитико-тематические рубрики, не вошедшие в указанный перечень формулируются по следующим принципам.
Среди тематических рубрик выделяются сформулированные на основании устойчивых терминов (в том числе многословных). Формулировка рубрики может быть признана термином только в том случае, если он (термин) зафиксирован именно в такой формулировке в соответствующей современной справочной или учебной литературе. Термины, используемые в качестве рубрик, формулируются в том виде, как это принято в терминосистеме науки, и не подлежат никакой модификации.
При наличии нескольких синонимичных терминов предпочтение следует отдавать терминам, получившим наиболее широкое распространение в современной науке. При использовании термина в качестве аналитико-тематической рубрики в авторитетной записи обязательно приводится его определение со ссылкой на источник.
Рубрики, выбранные из компонентов содержания текста, но не зафиксированные такой форме в специальной справочной литературе формулируются на основании обрабатываемого документа. Если элемент представляет из себя словосочетание, то оно должно состоять не более, чем из трех слов: главного и максимум двух взаимодополняющих определений. В таком словосочетании сохраняется прямой порядок слов естественного языка.
При наличии двух или нескольких формулировок тематических рубрик, одинаковых или весьма близких по смыслу, во избежание дублирования и распыления материала одна формулировка принимается, а другие отвергаются, т.е. не используются для индексирования, однако участвуют в выполнении поисковых запросов. Между рубрикой, принятой для индексирования, и одним или несколькими вариантными, отвергнутыми тематическими рубриками существуют отношения эквивалентности (равнозначности). Отношения эквивалентности выражаются ссылками от вариантной формы к принятой и используются в следующих случаях:
Установление отношений равнозначности между тематическими рубриками различных категорий недопустимо. При этом к одной принятой для индексирования формулировке может быть несколько таких отсылок от отвергнутых вариантов/синонимов.
Лекционное занятие № 2 Структура данных и представление машиночитаемых библиографических записей участниками обмена
Основные положения.
Авторитетные/нормативные файлы как инструмент стандартизации
В практике работы библиотек значительную роль начинают играть авторитетные файлы, нормирующие потенциальные точки доступа к библиографической информации. Нормируемые данные фиксируются в самостоятельной базе данных - системе авторитетных файлов - которая связана с библиографической и служит инструментом контроля при каталогизации и поиске.
Основные цели формирования авторитетных/нормативных файлов определяются следующим образом::
Ведение авторитетных файлов позволяет стандартизировать форму представления элементов различных областей записи. Стандартизации подвергается как содержание, так и форма машиночитаемой записи. В АФ представлены следующие категории элементов:
Каждый элемент авторитетного файла образовывает авторитетную/нормативную запись. Для всех вариантов написания дается ссылка на стандартное написание, служащее точкой доступа. Авторитетная/нормативная запись контролирует точки доступа к машиночитаемым библиографическим записям по механизму "один к многим". Именно этот механизм обеспечивает содержательную и структурную стандартизацию данных. Составление файлов доступа - авторитетных файлов - и их постоянная актуализация представляет собой особое направление библиотечной работы.
Структурное представление нормируемых данных в структуре Российского коммуникативного формата представления авторитетных/нормативных записей позволяет готовить записи для национального и международного обмена.
Содержательно авторитетные файлы создаются на основании соответствующих ГОСТов, методик и правилам, а также в соответствии с международными руководствами.
В 1984 г. под эгидой Международной программы Универсального библиографического контроля IFLA было издано Руководство по ведению авторитетных и ссылочных записей (GARE). При подготовке Руководства инструменты содержательного доступа (предметные рубрики) намеренно не рассматривались. Руководство по предметным авторитетным и ссылочным записям было разработано рабочей группой по “Руководству по предметным авторитетным файлам” Секции по классификации и индексированию Отделения библиографического контроля Международной федерации библиотечных ассоциаций и организаций.