Понятие о гипертексте. Гипертекстовые системы до появления Интернета. WWW-серверы. Навигация в сети. Проблемы поиска информации.
Документальные источники информации. Электронные документы. Форматы представления текстовой информации в сети (html, pdf, ps, doc и др.). Электронные издания.
Нетекстовые информационные объекты. Понятие электронной библиотеки.
Типология поисковых систем в сети Интернет. Различные основания для классификации (по ширине охвата, по внутренним характеристикам, по видам документов).
Типология поисковых систем в Интернет. Классификационные информационно-поисковые системы (каталоги). Вербальные (текстовые, словарные) информационно-поисковые системы (поисковые машины).
Глобальные информационно-поисковые системы и службы Интернета.
Естественные языки в Интернете. Региональные ИПС. Региональные версии глобальных систем. Русскоязычный Интернет.
Методы создания поисковых баз данных в глобальных системах. Индексирование и регистрация. Роботы-индексаторы. Инструменты управления индексированием (файл robots.txt, META-элементы).
Особенности лингвистического и информационного обеспечения ИПС в Интернет. Вербальные ИПЯ. Грамматические средства ИПЯ: синтагматика. Контекстно-позиционные операторы («фразы», операторы расстояния и др.).
Проблемы ранжирования документов в выдаче. Способы управления ранжированием.
Входные интерфейсы. Языки запросов (простые, расширенные). Их состав, примеры. Сравнительный анализ языков запросов ИПС сети Интернет. Сохранение запросов (история сеанса).
Выходные интерфейсы. Представление результатов поиска. Описание документов (веб-страниц), описание сайтов. Группирование документов по сайтам. Идентификация и объединение дублей.
Управление поиском. Статистика поиска. Поиск в найденном. Поиск по подобию.
Примеры вербальных ИПС. Сравнительный анализ поисковых систем.
Практикум по отладке запросов и поиску в вербальных ИПС.
Классификационные ИПС. Способы формирования базы данных в классификационных системах. Регистрация, специальные регистрационные сайты. Поиск по рубрикатору.
Практикум по поиску в классификационных ИПС.
Раздел 7. Настоящее и будущее информационного поиска
Коммерциализация Интернета в целом и поисковых служб в частности. Реклама. Плата за ускоренную регистрацию.
Развитие локальных ИПС.
Проблемы унификации и стандартизации.
Средства обратной связи. Неформальные «поисковые сообщества».
Развитие лингвистического обеспечения.
Системы с централизованной и децентрализованной распределенной архитектурой.
Интеллектуализация информационного поиска. Интеллектуальные информационные системы.
Элементы интеллектуальной обработки в глобальных ИПС сети Интернет. Интеллектуальные агенты.
Языки метаданных, языки XML, RDF, OWL и другие средства описания содержания.
2.3. Примерные вопросы для самоконтроля
Дать определения:
1. ИПС
2. ИПЯ
3. Критерий выдачи
4. Релевантность
5. Тезаурус
6. Составные части ИПС
7. Состав лингвистического обеспечения
8. Инверсный файл
Выбрать правильные варианты ответов
1. Знак «&» в ИПС Рамблер означает операцию:
· дизъюнкции (ИЛИ)
· конъюнкции (И)
· расстояния
2. Знак «|» в ИПС Яндекс означает операцию:
· следования
· конъюнкции (И)
· дизъюнкции (ИЛИ)
3. Функциональные подсистемы ИПС — это:
· лингвистическое обеспечение
· программное обеспечение
· техническое обеспечение
· ввод документов
· ввод запросов
· критерий смыслового соответствия
· поиск
· язык запросов
· выдача результатов поиска
· инвертированные файлы
4. Типы ИПЯ — это:
· морфологические языки
· дескрипторные языки
· семантические языки
· классификационные языки
· вербальные языки
· вторичные языки
· объектно-признаковые языки
5. Основные способы морфологической нормализации в ИПС:
· на основе автоматического морфоанализа
· усечение
· маскирование
· префиксация
6. Критерий смыслового соответствия — это:
· правила индексирования
· правила нормализации
· правила вычисления релевантности
· правила вычисления полноты
· методы ранжирования
· методы классификации
7. Индексирование — это:
· морфологическая нормализация
· составление поискового образа
· перевод на язык математической логики
· перевод на ИПЯ
· вычисление релевантности
· составление дескрипторного словаря
8. Обеспечивающие подсистемы ИПС — это:
· лингвистическое обеспечение
· программное обеспечение
· техническое обеспечение
· ввод документов
· ввод запросов
· критерий смыслового соответствия
· поиск
· поисковые предписания
· выдача результатов поиска
· инвертированные файлы
9. Типы ИПЯ:
· объектно-признаковые языки
· классификационные языки
· морфологические языки
· семантические языки
· вербальные языки
· вторичные языки
· дескрипторные языки
10. Критерий выдачи — это:
· правила индексирования
· правила нормализации
· правила вычисления релевантности
· правила вычисления полноты
· методы ранжирования
· методы классификации
2.4. Примерная тематика докладов, рефератов,
курсовых работ
· Анализ и описание ИПС сети Интернет (выбор системы по согласованию с преподавателем)
· Создание терминологического банка данных по информационно-поисковым системам (выявление, классификация терминов и толкований; результат — гипертекстовый словарь-указатель или поисковая база данных)
· Исследование способов использования онлайновых словарей и тезаурусов (например, WordNet) для индексирования запросов в информационно-поисковых системах
· Анализ и описание механизмов морфологической нормализации в информационно-поисковых системах
· Учет синтагматических связей как средство повышения эффективности поиска в полнотекстовых ИПС (экспериментальное исследование)
· Вычисления релевантности в информационно-поисковых системах (экспериментальное исследование)
· Анализ исследований сравнительной эффективности полнотекстовых информационно-поисковых систем
· Анализ лингвистического обеспечения полнотекстовых информационно-поисковых систем
· Аналитический обзор публикаций электронного журнала по информационно-поисковым системам Search Engine Report
2.5. Примерный перечень вопросов к экзамену
(зачету) по всему курсу
· Абстрактная и конкретная (реальная) ИПС
· Вербальные информационно-поисковые системы (поисковые машины). Их архитектура. Примеры вербальных ИПС
· Глобальные и региональные ИПС в сети Интернет. Примеры
· Грамматические средства ИПЯ. Способы выражения грамматических отношений
· Дескрипторные словари. Тезаурусы
· Документальная информация в сети Интернет. Текстовые документы. Языковые средства представления и структурирования документов (под углом поиска)
· Индексирование документов и запросов. Автоматизация индексирования
· Интеллектуальные информационные системы
· Интернет как глобальная информационная среда. Информационные ресурсы сети. Проблемы поиска в сети Интернет
· Информационная потребность, информационный запрос, поисковое предписание
· Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов
· Информационно-поисковые языки: классификация, типология
· ИПЯ. Дескрипторные языки. Вербальные языки
· ИПЯ. Классификационные языки
· История развития автоматизированных документальных ИПС, этапы развития. Особенности современного этапа
· Классификационные информационно-поисковые системы (каталоги). Примеры классификационных ИПС
· Классификация документальных ИПС по различным основаниям
· Критерий смыслового соответствия. Модели поиска
· Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС
· Методы создания поисковых баз данных в глобальных системах (индексирование, регистрация)
· Морфологическая нормализация лексики в ИПС
· Обеспечивающие подсистемы
· Объектно-признаковые языки
· Организация поисковых массивов в ИПС
· Основные технические характеристики документальных ИПС (полнота, точность)
· Понятие информационно-поискового языка (ИПЯ). Классификация (типология) ИПЯ
· Понятия «информация» и «система». Информационные процессы и системы. Типы информационных систем
· Проблемы многоязычного поиска в Интернет. Способы решения в разных ИПС
· Проблемы поиска документов на русском языке. Русско-язычные ИПС
· Проблемы составления поисковых предписаний. Обратная связь по релевантности
· Смешанные (гибридные) системы. Метапоисковые системы. Примеры
· Составные части дескрипторных информационно-поисковых языков
· Составные части ИПС. Системные взаимосвязи между элементами ИПС
· Сущность документального информационного поиска. Понятие релевантности
· Семантические языки
· Технология и режимы функционирования ИПС. Двухконтурные ИПС
· Типология поисковых систем в Интернет
· Фактографические ИПС
· Функционально-структурная схема ИПС. Функциональные подсистемы
· Язык запросов ИПС «Altavista». Интерфейс представления результатов поиска
· Язык запросов ИПС «Google». Интерфейс представления результатов поиска
· Язык запросов ИПС «Апорт». Интерфейс представления результатов поиска
· Язык запросов ИПС «Рамблер». Интерфейс представления результатов поиска
· Язык запросов ИПС «Яндекс». Интерфейс представления результатов поиска
· Языки запросов современных информационно-поисковых систем. Сравнительный анализ
· Языки запросов. Поисковые предписания.