На языке запросов описывается сам запрос и иногда форма представления результатов. В языках запросов сетевых ИПС можно выделить следующие основные компоненты.
1) Собственно поисковые элементы (объекты поиска).
Это или ключевые слова, или другие идентификаторы содержания.
2) Поисковые операторы.
Почти во всех языках запросов используются булевские логические операторы И, ИЛИ, НЕ. Форма, в которой эти операторы задаются в запросе, самая разная, и разнится она как в отдельных службах, так и в разных типах запросов (простой, сложный).
3) Нормализация элементов запроса.
Одни и те же лексические единицы в документах и запросах могут быть представлены в разной форме. В поисковых службах имеются способы нормализации таких лексических единиц. Эта нормализация может задаваться самим пользователем (способ, известный под названием «усечения» (truncation) или «маскирования» (wildcards)) или выполняться автоматически (последнее предпочтительнее).
4) Линейная грамматика: порядок следования поисковых элементов и расстояние между ними.
Во-первых, это «фразы» (жесткие словосочетания).
Во-вторых, имеются специальные контекстные операторы (контекстное И), когда условие совместного вхождения элементов запроса в документ должно выполняться в контексте определенной длины.
5) Дополнительные условия поиска.
Для уменьшения объема выдачи и повышения точности используются различные дополнительные условия поиска, как-то:
– поиск в определенных полях (частях) документа;
– ограничение области поиска различными критериями (дата, тип данных, формат, и т.п.).
6) Требования к форме представления результатов поиска.
– требования на сортировку (ранжирование) выдаваемых результатов поиска;
– вид выдаваемых результатов;
– количество выдаваемых документов.
Для получения (просмотра) самих документов (веб-страниц) и их просмотра необходимо отправиться по http-адресу. Как правило, системы предоставляют возможность посмотреть контекст — фрагменты документов с выделенными ключевыми словами запроса.
В процессе поиска пользователю, как правило, дается возможность вернуться к старому запросу и либо просто уточнить, сузить его, либо перейти в другой режим поиска, предоставляющий более сложные поисковые средства. Довольно широко также распространен еще один способ поиска — поиск по образцу (search similar pages). При этом стратегия поиска выбирается самой системой.
2. Программа учебной дисциплины
«Теория информационного поиска»
2.1. Организационно-методический раздел
Программа дисциплины составлена в соответствии с государственным образовательным стандартом высшего профессионального образования по направлению 021800 — Лингвистика.
Цель курса состоит в том, чтобы дать студентам теоретические основы информационного поиска, в первую очередь, документального, и навыки использования различных документальных ИПС, в том числе в сети Интернет.
Задачи курса:
- ознакомить студентов с основными понятиями и проблемами автоматизированного информационного поиска;
- ознакомить студентов с основными принципами организации и функционирования информационно-поисковых систем (ИПС);
- изучить различные ИПС, в том числе ИПС сети Интернет;
- сформировать навыки исследовательской работы по анализу и сопоставлению различных систем.
Место курса в профессиональной подготовке выпускника: курс носит пропедевтический характер. Он рассчитан на широкий круг студентов-гуманитариев и призван дать им основополагающее представление о способах хранения и поиска информации.
Требования к уровню освоения содержания курса
В результате обучения студент:
- основные понятия, относящиеся к информационным системам;
- основные типы систем;
- понятие информационно-поискового языка;
- понятия релевантности и критерия смыслового соответствия;
- основные поисковые системы сети Интернет;
- языки запросов и интерфейсы этих систем;
- осуществлять поиск в сети Интернет;
- сравнивать и анализировать различные системы.
2.2. Содержание курса
Разделы курса:
1) Основы информационного поиска
2) Документальные ИПС
3) Фактографические ИПС
4) Лингвистическое обеспечение информационного поиска
5) Функционирование и эксплуатация ИПС
6) Информационный поиск в сети Интернет
7) Настоящее и будущее информационного поиска
Раздел 1. Основы информационного поиска
Предмет, цели и задачи курса. Связь курса с другими дисциплинами.
Информация, информационные процессы, информационные системы, информационные потоки, информационные технологии. Типы информационных систем (АИПС, АСНТИ, АСУ, АСНИ, АОС, САПР, ЭС, БЗ и др.).
Основные понятия информационного поиска: информация, информационная система, информационная потребность, релевантность.
Основное содержание информационного поиска. Релевантность и пертинентность. Методы определения релевантности.
Данные и документы. Виды информационных документов. Текстовые документы. Описание документов.
Запросы. Типы запросов. Предметный поиск. Основные проблемы автоматизации семантических процессов обработки информации.
Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов: документальные, фактографические, интеллектуальные.
Библиографический поиск. Библиографические базы данных и электронные каталоги. Библиотечные системы.
Нетекстовые информационные системы (географические, картографические и др.). Поиск объектов по их описаниям (графические файлы, музыкальные файлы и т.п.). Поиск изображений и видеоинформации.
Раздел 2. Документальные ИПС
История развития автоматизированных документальных ИПС, этапы развития. Интегрированные системы. АСНТИ. Особенности современного этапа.
Составные части ИПС. ИПЯ. Критерий смыслового соответствия. Модели поиска. Абстрактная и конкретная ИПС.
Структура документальных и фактографических ИПС. Функциональные подсистемы. Структурная схема документальной ИПС.
Двухконтурные системы. Полнотекстовые ИПС. Гипертекстовые информационные системы.
Обеспечивающие подсистемы. Техническое обеспечение. Программное обеспечение. Компьютерные сети. Особенности построения сетевых ИПС.
Математическая модель документальной ИПС.
Организация поисковых массивов в ИПС.
Классификация документальных ИПС по различным основаниям.
Раздел 3. Фактографические ИПС
Фактографическая информация. Хорошо структурированная и плохо структурированная фактографическая информация.
Объектно-характеристические таблицы.
Язык семантической экспликации.
Эффективность фактографических ИПС.
Библиографический поиск как вид фактографического.
Раздел 4. Лингвистическое обеспечение информационного поиска
Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС.
Понятие информационно-поискового языка (ИПЯ). ИПЯ как основной элемент логико-семантического аппарата ИПС.
Информационно-поисковые языки: классификация, типология. Объектно-признаковые языки. Классификации. Алфавитно-предметные и фасетные классификации.
Дескрипторные языки. Вербальные языки.
Семантические и синтагматические языки.
Способы описания языков. Составные части дескрипторных информационно-поисковых языков (алфавит, словарь, грамматика).
Нормирование лексики в ИПС. Дескрипторные словари. Тезаурусы. Создание словарей и тезаурусов. Авторитетный контроль как элемент лингвистического обеспечения автоматизированных библиотечных систем.
Грамматические средства ИПЯ. Парадигматические и синтагматические отношения.
Индексирование документов и запросов. Поисковые образы документов и запросов.
Языки запросов: понятие и состав. Средства и методы выражения информационной потребности. Поисковые предписания.
Модели поиска. Поисковые операторы.
Средства морфологической нормализации.
Языковые средства представления и структурирования электронных документов (форматы, языки SGML, HTML, XML). Языки метаданных (Dublin Core, GILS и др.).
Лингвистическое обеспечение фактографических ИПС. Основные единицы ИПЯ фактографических ИПС.
Раздел 5. Функционирование и эксплуатация ИПС
Информационное, технологическое и кадровое обеспечение.
Технология предмашинной обработки информации. Индексирование документов и запросов. Особенности поиска в зависимости от видов документов.
Режимы функционирования ИПС (ИРИ, ретроспективный поиск). Пакетный и диалоговый режимы.
Основные технические характеристики документальных ИПС (полнота, точность). Факторы, влияющие на эффективность поиска. Оценки эффективности ИПС.
Средства и методы решения лексико-семантических проблем в ИПС. Проблемы составления поисковых предписаний. Обратная связь по релевантности.
Обеспечение результатов поиска первичными документами. Электронная доставка документов.
Раздел 6. Информационный поиск в сети Интернет
Значение компьютерных сетей для организации информационного обслуживания. Способы и средства доступа к удаленным документальным массивам. Протокол Z39.50 (Search/Retrieval).
Сеть Интернет, ее краткая характеристика. Интернет как электронная транспортная система. Интернет как глобальное информационное пространство.
Информационные ресурсы сети Интернет. FTP-серверы. GOPHER. WAIS.