Точность – отражает уровень информационного шума, содержащегося в результатах.
Скорость получения результатов – зависит от технических характеристик, загруженности каналов связи и серверов поисковых систем, особенностей алгоритмов поиска и качества запроса пользователя.
Поисковые cистемы обычно состоят из трех компонент:
· агент, паук или кроулер, которая сканирует Internet и собирает информацию;
· база данных, которая содержит собираемую информацию;
· поисковый механизм и интерфейс для взаимодействия с базой данных.
Принципы определения соответствия запроса найденному документу (релевантности):
1) Количество слов запроса в текстовом содержимом документа (т.е. в HTML-коде).
2) Тэги, в которых эти слова располагаются (например, в <title>)
3) Местоположение искомых слов в документе (например, в начале страницы).
4) Время - как долго страница находится в базе поискового сервера.
5) Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковой системы.
На запрос пользователя поисковая система формирует упорядоченный список документов в соответствии с перечисленными принципами.
3.2. Организация и проведение поиска информации в Internet
Метапоисковая информационно-поисковая система - поддерживающая поиск нескольких индексов поискового механизма одновременно (Search www.search.com; MetaCrawler www.Metacrawler.com).
Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя.
Язык поисковых запросов – язык формирования запроса для информационно-поисковой системы. Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. Рассмотрим язык запросов на примере поисковой системы Rambler (www.rambler.ru).
Операторы. Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу <собака AND кошка> найдутся только те документы, которые содержат и слово <собака>, и слово <кошка>.
Каждый из операторов имеет сокращенное обозначение.
Оператор | Сокращенное обозначение |
AND | & |
OR | | |
NOT | ! |
Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.
Кавычки. Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.
Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.
Метасимволы. Поддержка поиска строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно.
Морфология. По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Поисковая машина понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова.
Стоп-слова. Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые “стоп-слова” - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли.
Ограничение расстояния. Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в сорок слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу <красная армия> будут найдены те документы, в которых слова <красная> и <армия> хотя бы один раз встретятся менее чем в сорока словах друг от друга. Запрос в данном случае может быть записан <(40, красная армия)>. Т.о., значение ограничения контекста можно изменять конструкцией <(число, запрос)>.
Расширенный поиск. Форма расширенного поиска дает возможность: задавать дополнительные параметры поиска; редактировать параметры поиска и поля, заданные по умолчанию; выбирать наиболее удобную форму показа результатов поиска.
При оперативном поиске, как и в большинстве попыток, вы получите лучшие результаты, когда потратите некоторое время на выработку стратегии.
Стратегия проведения поиска:
1. Сформулировать понятие о том, что ищете (в письменной форме).
2. Уточнить категорию информации (общая, специальная и др.)
3. Определить тип искомого ресурса (web-сайт, ftp-архив, e-mail адрес, документ и др. )
4. Сформировать список ключевых слов, синонимов и отношений между ними.
5. Выбрать инструментальное средство поиска.
6. Выбрать способ поиска в поисковой системе.
7. Выбрать поисковую систему.
8. Выполнить поиск.
9. Просмотреть найденные ресурсы.
10. Создать закладки избранного.
11. Изменить элементы стратегии поиска при необходимости (например, вернитесь к пункту 5).
Список ссылок WWW и FTP
1. http://www.tambov.ru/ 2. http://www.tstu.ru/ 3. http://www.tmb.ru/ 4. http://www.tamb.ru/ | Адреса в Тамбове | 1. http://www.yandex.ru 2. http://www.rambler.ru 3. http://www.aport.ru | Адреса русскоязычных поисковых серверов |
1. http://www.yukos.ru/ 2. http://www.fio.ru/ 3. http://center.fio.ru/ 4. http://www.pokoleniye.ru/ 5. http://school-sector.relarn.ru 6. http://www.fio.spb.ru/ 7. http://www.tambov.fio.ru/ | Федерация Internet-образования | 1. http://www.yahoo.com 2. http://www.altavista.com 3. http://www.infoseek.com 4. http://www.hotmail.com | Адреса англоязычных поисковых серверов |
1. http://www.infospace.co0m 2. http://www.whowhere.com/ 3. http://people.yahoo.com 4. http://www.bigfoot.com 5. http://eros.dubna.ru/ | Поиск людей | 1. http://www.chat.ru/ 2. http://www.mail.ru | Предоставление бесплатных почтовых адресов |
1. http://www.informika.ru 2. http://www.ed.gov.ru 3. http://www.educom.ru 4. http://rostest.runnet.ru 5. http://all.edu.ru | Адреса системы образования | 1. http://subscribe.ru/ 2. http://www.citycat.ru 1. news://ddt.demos.su 2. news://msnews.microsoft.com 3. news://news.tambov.fio.ru | Службы почтовых рассылок и Новостей |
1. http://ftpsearch.rambler.ru/ 2. http://www.files.ru/ 3. http://ftp.chg.ru:8000/ 4. http://ftpsearch.city.ru/ | Поиск в FTP | 1. ftp://des.tstu.ru http://des.tstu.ru/ftp 2. ftp://ftp.kiarchive.ru/ ftp://ftp.relcom.ru/ http://www.kiarchive.ru/pub/ 3. ftp://ftp.informika.ru/ http://www.informika.ru/text/ftp | Адреса файловых архивов |
Глоссарий
ARPANet – компьютерная сеть, предшественница Internet. Начата в 1969 году с финансированием от Defense Department's Advanced Projects Research Agency (Агентство перспективных исследовательских проектов министерства обороны).
Backbone (хребет, хребтовая сеть) - высокоскоростная сеть, объединяющая несколько мощных компьютеров. В США хребтом Internet часто считается NSFNet.
FTP (File Transfer Protocol) - протокол передачи файлов - протокол, определяющий правила передачи файлов с удаленного компьютера на локальный вне зависимости от типа операционной системы и места расположения компьютеров.
HTTP (Hyper Text Transfer Protocol) - протокол передачи гипертекста – протокол прикладного уровня, разработанный для обмена гипертекстовой информацией в сети Internet.
HTML (Hyper Text Markup Language) - язык разметки гипертекста, применяемый для разработки web-страниц.
Internet (Интернет) - сообщество множества международных и национальных компьютерных сетей, которые используют для обмена данными технологию internet.