Смекни!
smekni.com

Учебно-методическое пособие Тамбов 2002 г. Авторы составители: Краснянский М. Н., Кузьмина Н. В., Лагутин А. В., Орлова Л. П., Пунина Т. Г. Основы работы в Интернет: Учебно-методическое пособие. Ч там (стр. 5 из 7)

Точность – отражает уровень информационного шума, содержащегося в результатах.

Скорость получения результатов – зависит от технических характеристик, загруженности каналов связи и серверов поисковых систем, особенностей алгоритмов поиска и качества запроса пользователя.

Поисковые cистемы обычно состоят из трех компонент:

· агент, паук или кроулер, которая сканирует Internet и собирает информацию;

· база данных, которая содержит собираемую информацию;

· поисковый механизм и интерфейс для взаимодействия с базой данных.

Принципы определения соответствия запроса найденному документу (релевантности):

1) Количество слов запроса в текстовом содержимом документа (т.е. в HTML-коде).

2) Тэги, в которых эти слова располагаются (например, в <title>)

3) Местоположение искомых слов в документе (например, в начале страницы).

4) Время - как долго страница находится в базе поискового сервера.

5) Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковой системы.

На запрос пользователя поисковая система формирует упорядоченный список документов в соответствии с перечисленными принципами.

3.2. Организация и проведение поиска информации в Internet

Метапоисковая информационно-поисковая система - поддерживающая поиск нескольких индексов поискового механизма одновременно (Search www.search.com; MetaCrawler www.Metacrawler.com).

Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя.

Язык поисковых запросов – язык формирования запроса для информационно-поисковой системы. Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. Рассмотрим язык запросов на примере поисковой системы Rambler (www.rambler.ru).

Операторы. Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу <собака AND кошка> найдутся только те документы, которые содержат и слово <собака>, и слово <кошка>.

Каждый из операторов имеет сокращенное обозначение.

Оператор

Сокращенное обозначение

AND

&

OR

|

NOT

!

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Кавычки. Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Метасимволы. Поддержка поиска строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно.

Морфология. По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова.

Стоп-слова. Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые “стоп-слова” - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли.

Ограничение расстояния. Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в сорок слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу <красная армия> будут найдены те документы, в которых слова <красная> и <армия> хотя бы один раз встретятся менее чем в сорока словах друг от друга. Запрос в данном случае может быть записан <(40, красная армия)>. Т.о., значение ограничения контекста можно изменять конструкцией <(число, запрос)>.

Расширенный поиск. Форма расширенного поиска дает возможность: задавать дополнительные параметры поиска; редактировать параметры поиска и поля, заданные по умолчанию; выбирать наиболее удобную форму показа результатов поиска.

При оперативном поиске, как и в большинстве попыток, вы получите лучшие результаты, когда потратите некоторое время на выработку стратегии.

Стратегия проведения поиска:

1. Сформулировать понятие о том, что ищете (в письменной форме).

2. Уточнить категорию информации (общая, специальная и др.)

3. Определить тип искомого ресурса (web-сайт, ftp-архив, e-mail адрес, документ и др. )

4. Сформировать список ключевых слов, синонимов и отношений между ними.

5. Выбрать инструментальное средство поиска.

6. Выбрать способ поиска в поисковой системе.

7. Выбрать поисковую систему.

8. Выполнить поиск.

9. Просмотреть найденные ресурсы.

10. Создать закладки избранного.

11. Изменить элементы стратегии поиска при необходимости (например, вернитесь к пункту 5).

Список ссылок WWW и FTP

1. http://www.tambov.ru/ 2. http://www.tstu.ru/ 3. http://www.tmb.ru/ 4. http://www.tamb.ru/ Адреса в Тамбове 1. http://www.yandex.ru 2. http://www.rambler.ru 3. http://www.aport.ru Адреса русскоязычных поисковых серверов
1. http://www.yukos.ru/ 2. http://www.fio.ru/ 3. http://center.fio.ru/ 4. http://www.pokoleniye.ru/ 5. http://school-sector.relarn.ru 6. http://www.fio.spb.ru/ 7. http://www.tambov.fio.ru/ Федерация Internet-образования 1. http://www.yahoo.com 2. http://www.altavista.com 3. http://www.infoseek.com 4. http://www.hotmail.com Адреса англоязычных поисковых серверов
1. http://www.infospace.co0m 2. http://www.whowhere.com/ 3. http://people.yahoo.com 4. http://www.bigfoot.com 5. http://eros.dubna.ru/ Поиск людей 1. http://www.chat.ru/ 2. http://www.mail.ru Предоставле­ние бесплатных почтовых адресов
1. http://www.informika.ru 2. http://www.ed.gov.ru 3. http://www.educom.ru 4. http://rostest.runnet.ru 5. http://all.edu.ru Адреса системы образования 1. http://subscribe.ru/ 2. http://www.citycat.ru 1. news://ddt.demos.su 2. news://msnews.microsoft.com 3. news://news.tambov.fio.ru Службы почтовых рассылок и Новостей
1. http://ftpsearch.rambler.ru/ 2. http://www.files.ru/ 3. http://ftp.chg.ru:8000/ 4. http://ftpsearch.city.ru/ Поиск в FTP 1. ftp://des.tstu.ru http://des.tstu.ru/ftp 2. ftp://ftp.kiarchive.ru/ ftp://ftp.relcom.ru/ http://www.kiarchive.ru/pub/ 3. ftp://ftp.informika.ru/ http://www.informika.ru/text/ftp Адреса файловых архивов

Глоссарий

ARPANet – компьютерная сеть, предшественница Internet. Начата в 1969 году с финансированием от Defense Department's Advanced Projects Research Agency (Агентство перспективных исследовательских проектов министерства обороны).

Backbone (хребет, хребтовая сеть) - высокоскоростная сеть, объединяющая несколько мощных компьютеров. В США хребтом Internet часто считается NSFNet.

DNS (Domain Name System) - доменная система имен - распределенная система баз данных для перевода компьютерных имен (типа club33.opa.bolizm) в числовые адреса Internet (типа 33.33.33.33) . DNS упрощает работу с сетью Internet, давая возможность не запоминать длинные цепочки чисел (IP адреса).

FTP (File Transfer Protocol) - протокол передачи файлов - протокол, определяющий правила передачи файлов с удаленного компьютера на локальный вне зависимости от типа операционной системы и места расположения компьютеров.

HTTP (Hyper Text Transfer Protocol) - протокол передачи гипертекста – протокол прикладного уровня, разработанный для обмена гипертекстовой информацией в сети Internet.

HTML (Hyper Text Markup Language) - язык разметки гипертекста, применяемый для разработки web-страниц.

Internet (Интернет) - сообщество множества международных и национальных компьютерных сетей, которые используют для обмена данными технологию internet.