Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).
Каковы основные источники информации, представленные в Интернете?
Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.
Где эти источники информации размещаются?
Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы. Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.
ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.
Релевантность - это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.
В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.
Каталог
Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
Адреса популярных каталогов:
Зарубежные каталоги:
Yahoo - www.yahoo.com Magellan - www.mckinley.com
Российские каталоги:
@Rus - www.aport.ruWeblist - www.weblist.ruУлитка -www.ulitka.ru
Поисковая машина
Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов). Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.
Адреса наиболее популярных поисковых машин за рубежом и в России.
Зарубежныепоисковыемашины:
Google - www.google.com Altavista - www.altavista.com Excite - www.excite.com HotBot - www.hotbot.com Nothern Light - www.northernlight.com Go (Infoseek) - www.go.com (infoseek.com) Fast - www.alltheweb.com
Российские поисковые машины:
Яndex - www.yandex.ru (или www.ya.ru)Рэмблер - www.rambler.ru Апорт - www.aport.ru
Метапоисковая машина
Метапоисковая система. Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.
Адреса известных метапоисковых систем:
MetaCrawler - www.metacrawler.comSavvySearch - www.savvysearch.com
Поиск источников информации
Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструментами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые индексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный режим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сервер Altavistа. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах новостей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.
Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл.
Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск программного обеспечения для Интернета или для конкретной операционной системы. Эти системы в конечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.
Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.
White-поиск - поиск адресной информации по заранее известному собственному имени адресата (имя человека или организации)
Yellow-поиск - поиск собственного имени по дополнительным признакам (по роду деятельности, по географическому признаку), а затем поиск его адресной информации.
Обычно Yellow Pages системы фактически сразу включают в себя и White Pages - у найденного адресата сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также содержат элементы yellow-поиска - кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофамильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, фактически white-поиск, называют себя Yellow pages.
Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.