6. Провести поиск в ИПС Google по базе данных Groups (Группы) в телеконференции relcom.sci.libraries по запросу «Internet in Libraries»: сначала по полю темы (Subject), затем по всему сообщению, представив запрос как конъюнкцию, затем по всему сообщению, представив запрос как устойчивое словосочетание (phrase).
7. Далее провести поиск в Google по запросу «Internet in Libraries» в базе данных Web (Веб): сначала по полю заголовка страницы, затем по всему документу (где угодно на странице), представив запрос как конъюнкцию и как устойчивое словосочетание (phrase).
8. Сравнительные количественные результаты поиска представить в табличном виде в файле отчета:
Поисковая база | Область поиска | Запрос как конъюнкция | Запрос как «phrase» |
Группы | Тема | ||
Всё сообщение | |||
Веб | Заголовок страницы | ||
Весь документ |
9. Предъявить работу преподавателю.
Лабораторная работа № 8
(Глобальные вербальные ИПС: ранжирование выдачи)
1. Используя системы Google, Fast (AlltheWeb), Teoma и WiseNut провести поиск по запросу «Корпусная лингвистика» на английском языке. Логическая формула: (corpus V corpora) & (linguistics V language).
2. Сохранить первую веб-страницу с результатами поиска (10 документов) в каждой системе в своей папке в формате «только html».
3. Составить в файле отчета таблицу с количественными результатами поиска.
4. Проанализировать (попарно) совпадение документов в выдаче по каждой системе (10 документов):
| Fast | Teoma | WiseNut | |
| * | — | — | — |
Fast | число 1 | * | — | — |
Teoma | число 2 | число 4 | * | — |
WiseNut | число 3 | число 5 | число 6 | * |
где число_i,— количество совпавших документов.
5. Выписать все совпавшие документы по следующей схеме:
– документы, присутствующие в выдаче (в первой десятке) во всех четырех системах;
– документы, присутствующие в выдаче (в первой десятке) в трех системах;
– документы, присутствующие в выдаче (в первой десятке) в двух системах;
при этом каждый документ идентифицировать следующим образом: sN, где s — идентификатор системы (соответственно g, f, t или w), а N — ранг документа в данной системе. Таким образом, для документа, представленного в выдаче в трех системах, в файле отчета будет создана, скажем, такая запись: g3—f9—w2, что означает, что этот документ был найден в системах Google, Fast, и WiseNut и находится в выдаче этих систем соответственно на 3-м, 9-м и 2-м месте.
6. Проанализировать релевантность первых 10 документов и оценить точность каждой системы. Результаты представить в виде таблицы:
№ п/п | Название системы | Количество релевантных документов | Сумма рангов |
|
6. Предъявить работу преподавателю.
Лабораторная работа № 9
(Метапоисковые системы)
1. Изучить метапоисковые ИПС MetaСrawler (www.metacrawler.com), Profusion (www.profusion.com) и Ixquick Metasearch (www.ixquick. com). Результат — краткий конспект в тетради и поисковый синтаксис (состав и функции операторов) в файле отчета. Перечислить в файле отчета системы, через которые по умолчанию ведется поиск в Profusion. Перечислить виды поиска в Ixquick Metasearch.
2. Провести сравнительный поиск в Profusion (включив в расширенном поиске системы поиск по всем системам (All)) и Ixquick Metasearch по запросу «corpus linguistics». Первые веб-страницы с результатами поиска сохранить в своей папке в формате «только html». В файле отчета описать (показать), как в данных системах указывается релевантность (score) найденных документов. Попытаться объяснить, как формируется этот показатель.
3. В системе Profusion перейти по ссылке Search Analysis, проанализировать полученную страницу и сохранить ее в своей папке.
4. Изучить систему Kartoo (www.kartoo.com). Провести поиск по тому же запросу. Первую веб-страницу с результатами поиска сохранить в своей папке в формате «веб-архив, один файл». Проанализировать результаты поиска и оценить их релевантность. Объяснить смысл и назначение левого фрейма на странице результатов поиска.
5. Провести сравнительный поиск в MetaСrawler и в Google по теме «Психологические аспекты взаимодействия человека и компьютера». Воспользоваться поисковым предписанием, отлаженным и сохраненным в работе № 6. Проанализировать качество поиска по первым десяти документам. Результаты представить в виде таблицы:
№ п/п | Название системы | Количество найденных документов | Количество релевантных документов | Сумма рангов релевантных документов |
1 | | |||
2 | MetaСrawler |
6. Ознакомиться с системой HotBot. Обратить внимание на возможность менять входной интерфейс системы (Skin Hotbot: Skins | Style Picker | Total CSS Control), на возможность устанавливать фильтры (Preferences), на возможности расширенного поиска, на метапоисковый характер данной системы. Быть готовым отвечать на вопросы по данной ИПС. Найти описание логических операторов языка запросов и скопировать его в файл отчета.
7. Ознакомиться с системой Vivisimo. Обратить внимание на способ представления результатов поиска в данной системе (автоматическая кластеризация).
8. Провести поиск в HotBot и Vivisimo по теме «Морфология». При этом исключить из поиска медицинскую (medicine) и биологическую (biology, anatomy, cell) тематику. В HotBot сделать это установкой отрицательного текстового фильтра для Google (Preferences: Word Filter: None of these words). Веб-страницу с установленным фильтром сохранить в своей папке. Первые веб-страницы с результатами поиска сохранить в своей папке в формате «только html». Количественные результаты поиска представить в виде таблицы в файле отчета.
9. Предъявить работу преподавателю.
Лабораторная работа № 10
(Специализированные порталы и мультипорталы)
1. Найти на сайте Yahoo (раздел Weather) и скопировать в файл отчета прогноз погоды в Санкт-Петербурге на ближайшие десять дней.
2. Найти на сайте Рамблера карту Вологодской области. Сохранить ее в графическом формате в своей папке.
3. Ознакомиться с мультипорталами Яндекс и «Кирилл и Мефодий» (www.km.ru). Перечислить в тетради их основные порталы и сервисы. Быть готовым дать их характеристики.
4. Найти и сохранить в своей папке стартовые страницы порталов нескольких типов: тематический портал; отраслевой портал; туристический; информационный; бизнес-портал.
5. Используя возможности порталов различных типов, найти и сохранить в файле отчета следующую информацию:
– курс японской йены на день выполнения работы;
– информацию о температуре воздуха на день выполнения работы на острове Хоккайдо (Япония);
– стоимость тура в Таиланд.
6. Средствами портала РосБизнесКонсалтинг (www.rbc.ru) разыскать информацию о рейтингах российских банков на текущий момент. Записать в файл отчета названия трех самых крупных и трех самых «филиальных» банков.
7. Имеется значительное число порталов, обеспечивающих поиск программных средств. Ознакомиться с одним из них: www.freesoft.ru – и найти информацию о текстовом редакторе «Лексикон». Страницу с результатами поиска сохранить в своей папке.
8. Ознакомиться со службами, позволяющими найти адреса людей, в том числе электронные адреса, по имени:
http://www.yahoo.com/search/people
http://www.records.com/
http://www.bigfoot.com
http://www.infospace.com
http://www.whowhere.com
http://www.iaf.net
9. Выбрать трех человек (желательно с Запада — к сожалению, поиск по русским «персональным» ресурсам в настоящее время очень ограничен) и попытаться найти их электронные адреса. Результаты поиска сохранить в файле отчета.
10. Ознакомиться со специализированными порталами, посвященными информационному поиску:
http://www.searchenginewatch.com
http://www. searchengines.ru
Найти названия и адреса 5 метапоисковых систем и сохранить их в файле отчета.
11. Предъявить работу преподавателю.
Содержание
1. Введение в теорию и практику информационного поиска .......... | 3 |
1.1. Основные понятия информационного поиска …………… | – |
1.2. Информационный поиск в сети Интернет ……………….. | 8 |
1.3. Языки запросов ИПС Интернет …………………………... | 14 |
2. Программа учебной дисциплины «Теория информационного поиска» ……………………………………………………………….. | 16 |
2.1. Организационно-методический раздел ………………………… | – |
2.2. Содержание курса ………………………………………………. | 17 |
2.3. Примерные вопросы для самоконтроля ………………………... | 21 |
2.4. Примерная тематика докладов, рефератов, курсовых работ …... | 24 |
2.5. Примерный перечень вопросов к экзамену (зачету) по всему курсу ..……………………………………………………........... | 25 |
2.6. Распределение часов курса по темам и видам работы …………. | 27 |
2.7. Форма текущего, промежуточного и итогового контроля …….. | 28 |
2.8. Учебно-методическое обеспечение курса ……………………... | – |
3. Практикум (лабораторные работы) ……………………………… | 31 |
Инструкция по выполнению лабораторных работ …………… | – |
Лабораторная работа № 1 ……………………………………… | 32 |
Лабораторная работа № 2 ……………………………………… | 33 |
Лабораторная работа № 3 ……………………………………… | 35 |
Лабораторная работа № 4 ……………………………………… | 37 |
Лабораторная работа № 5 ……………………………………… | 38 |
Лабораторная работа № 6 ……………………………………… | 40 |
Лабораторная работа № 7 ……………………………………… | 41 |
Лабораторная работа № 8 ……………………………………… | 42 |
Лабораторная работа № 9 ……………………………………… | 44 |
Лабораторная работа № 10 …………………………………… | 45 |
Учебное издание
Виктор Павлович Захаров
ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ
Учебно-методическое пособие
Зав. редакцией Г.И. Чередниченко
Редактор Н.Г. Михайлова
Технический редактор Л.Н. Иванова
Обложка А.В. Калининой
Подписано в печать с оригинала-макета 28.11.2005.
Ф-т 60х84/16. Усл. печ. л. 2,79. Уч.-изд. л. 1,81.
Тираж 120 экз. Заказ № .
РОПИ С.-Петербургского государственного университета.
199034, С.-Петербург, Университетская наб., 7/9.
Типография Издательства СПбГУ.
199061, С.-Петербург, Средний пр., 41.
[1] Ранее большие и малые буквы различались; в ныне работающей версии эта возможность отсутствует.