4. Посетить Рейтинговую систему ИПС Рамблер. Ознакомиться с классификатором (рубрикатором) данной системы. Рубрики, совпадающие с рубриками Апорта (полностью или частично), переписать в тетрадь. Посмотреть рейтинг сайтов по теме «Образование». Ознакомиться с формой представления информации в каталоге. Название сайта, занимающего пятое место, с его количественными показателями, скопировать в файл отчета Report1. Посмотреть подробную статистику и статтаблицу скопировать в файл отчета.
5. С помощью классификатора системы-каталога Mail.Ru найти 66-й сонет В. Шекспира. Текст сонета, путь к нему (перечень рубрик) и его URL (адрес в Интернет) записать (желательно, через буфер обмена) в файл отчета. URL запомнить также в Избранном в папке Shakespeare.
6. То же самое повторить в системе Yahoo.
7. В Yahoo провести расширенный поиск по слову Shakespeare в категориях (categories) и выписать (скопировать) в файл отчета все составные рубрики, где есть документы о Шекспире (каждая отдельной строчкой, например, Home-Arts-Literature-Authors-Theater).
8. Предъявить работу преподавателю.
Лабораторная работа № 2
(Русскоязычные вербальные ИПС: сравнительный анализ)
1. Работа заключается в сравнительном изучении систем Апорт, Яндекс, Рамблер. Результаты изучения студент должен отразить в виде таблицы (с. 34) в файле Report2 (ориентация таблицы — альбомная). В ячейках записать, как в каждой системе представляется тот или другой элемент языка запросов или входного/выходного интерфейса (все допустимые способы). В некоторых случаях можно отвечать знаками «+» или «–» (например, «Описание документа») или свободным текстом своими словами (например, «Релевантные страницы того же сайта» или «Сортировка»).
2. Перейти на сайт поисковой системы Апорт (затем Яндекс и Рамблер). Найти в каждой системе ссылки на ее описание в целом, на описание языка запросов, интерфейсов («Справка», «Помощь», «Расширенный поиск» и т.п.). Перейдя по ссылкам, внимательно изучить справочную информацию и в рабочей тетради кратко законспектировать основные пункты. После этого для каждой системы заполнить соответствующие ячейки таблицы (разделы 1, 2).
Примечание. Если текст ответа не помещается в ячейке таблицы, рекомендуется делать сноску и продолжать его под таблицей. Обратить внимание на то, что возможности систем в простом и в расширенном поиске различаются. Отразить это в отчете. Обратить внимание на наличие разделов «другое».
3. Вернуться назад на начальную страницу поисковой системы Апорт (затем Яндекс и Рамблер). Ввести какой-либо запрос (например, «Статистические методы в лингвистике») в окне для текстового запроса и провести поиск. Страницу с результатами поиска сохранить в своей папке в формате «только html».
4. Изучить форму представления результатов. Кратко записать в тетради, что содержится на веб-странице с результатами поиска (структуру веб-страницы). Изучить форму представления отдельных веб-документов (их краткие описания с дополнительной информацией). На основе изучения полученных результатов и ранее изученной справочной информации заполнить соответствующие ячейки таблицы (раздел 3).
5. Предъявить работу преподавателю.
Результаты сравнительного изучения систем Апорт, Яндекс, Рамблер
№ | Параметры | Апорт | Яндекс | Рам-блер |
Поиск по тексту | ||||
1. | Логические операторы: | |||
1.1 | конъюнкция | |||
1.2 | дизъюнкция | |||
1.3 | отрицание | |||
Синтагматические операторы: | ||||
1.4 | фразы (словосочетания, слова рядом) | |||
1.5 | расстояние в словах | |||
1.6 | расстояние в предложениях | |||
1.7 | Морфологическая нормализация (автоматическая, используемые метасимволы) | |||
2. | Поиск по полям | |||
2.1 | по заглавию | |||
2.2 | по полю ключевых слов | |||
2.3 | по комментарию к картинкам (поле ALT) | |||
2.4 | по тексту гиперссылок | |||
2.5 | по адресам ссылок | |||
2.6 | по доменному имени сайта (сервера) | |||
2.7 | по языку | |||
2.8 | по дате | |||
2.9 | по формату | |||
2.10 | Другие | |||
3. | Интерфейс выдачи (форма представления результатов) | |||
3.1 | статистика слов из запроса | |||
3.2 | количество найденных документов | |||
3.3 | количество найденных сайтов | |||
3.4 | количество документов на странице результатов | |||
3.5 | сортировка документов на странице выдачи | |||
3.6 | поиск в найденном | |||
3.7 | описание документа включает следующие элементы: | |||
a) | URL (адрес в сети) | |||
b) | размер документа (объем) | |||
c) | дата создания | |||
d) | кодировка | |||
e) | аннотация (краткое содержание) | |||
f) | указание на другие релевантные веб-страницы того же сайта | |||
g) | ссылка на рубрику каталога, к которой относится найденный документ или сайт | |||
h) | поиск похожих документов | |||
i) | другое |
Лабораторная работа № 3
(Русскоязычные вербальные ИПС: поиск)
Составление и отладка тематического запроса
1. Составить в тетради запрос по теме «Морские сражения во время Великой отечественной войны». При этом убрать из темы незначащие слова, расширить запрос синонимами, составить логическую формулу запроса с обязательным использованием операторов конъюнкции, дизъюнкции, расстояния и фразы (жесткое словосочетание).
2. Показать запрос преподавателю.
3. Затем записать его варианты на языках систем Апорт, Яндекс, Рамблер.
4. Отладить запрос в режиме реального поиска, проводя последовательно сеансы во всех трех системах. Попытаться варьировать поисковые предписания, чтобы добиться оптимальных показателей поиска. Для этого фиксировать в тетради полученные результаты по каждому варианту: точность (по первым 20 документам) и условную полноту (абсолютный объем выдачи).
5. Вернуться к наилучшему поисковому предписанию и текст запроса скопировать через буфер обмена из поисковой строки (окно для ввода запроса) в окно файла отчета Report3 (поочередно в каждой системе). Указать при этом в отчете показатели точности и полноты. Первую веб-страницу с результатами поиска в каждой системе сохранить в своей папке в формате «только html».
Знакомство с поиском по полям («Расширенный поиск»)
6. Найти с помощью системы Яндекс документы, посвященные Льву Гумилеву. Количество найденных документов и сайтов записать в файл отчета. Адрес (URL) первого документа из списка сохранить в Избранном в папке «Гумилев».
7. Затем перейти в режим расширенного поиска и найти документы, посвященные Льву Гумилеву, с датой после 1 октября 2004 г. Новое количество найденных документов и сайтов снова записать в файл отчета. Первый документ из списка результатов поиска сохранить в своей папке в формате «веб-архив, один файл» (*.mht).
8. Найти через систему Рамблер документы по теме «Экономика города Москвы». При этом объём выдачи (количество описаний документов на странице результатов) установить равным 30. Результаты поиска отсортировать по дате (по убыванию) и первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html». Количество найденных документов и сайтов зафиксировать в файле отчета.
9. Перейти в режим расширенного поиска и найти документы по той же теме, но находящиеся лишь на сайте www.rbc.ru. Результаты поиска отсортировать по дате (по возрастанию) и первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html». Количество найденных документов и сайтов зафиксировать в файле отчета.
10. Найти через систему Яндекс документы по теме «Образование», из которых есть ссылка на сайт www.rsuh.ru. Первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html». Количество найденных документов и сайтов зафиксировать в файле отчета.
11. Загрузить один из найденных документов, просмотреть его html-код, найти в нем ссылку на сайт www.rsuh.ru и элемент гиперссылки (от начального до конечного тега А) через буфер обмена скопировать в файл отчета.
12. Документ в формате mht, сохраненный в п. 7 (о Льве Гумилеве), прочитать в редакторе Word: вначале в формате веб-страницы, затем в формате «только текст». При втором чтении просмотреть содержимое окна ввода редактора Word (особенно начало и конец файла), скопировать первую страницу окна ввода в файл отчета и быть готовым объяснить, что такое формат mht.