Индекс используется для поиска Web-страниц по ключевым словам, каталог - по разделам, систематизированным по иерархическим рубрикам.
Броузеры имеют встроенные средства поиска документов
И NetScape Navigator, и Microsoft Internet Explorer имеют встроенные средства, позволяющие быстро находить нужные страницы.
Поисковая система - мощный инструмент, позволяющий узнавать обо всем на свете: от результатов последних спортивных матчей до ежедневных происшествий. Благодаря правильно организованному средству поиска Web становится неотъемлемой частью повседневной жизни пользователя.
PointCast Client - одна из лучших поисковых систем, позволяющая получать последние новости прямо на рабочий стол компьютера. А главное, она абсолютно бесплатная!
Возможности мощных систем поиска выходят далеко за пределы простого умения находить Web-страницы. Многие из них имеют встроенные средства поиска адресов электронной почты, телефонных номеров и сообщений групп новостей. Некоторые позволяют находить географические карты, например, подробные планы городов.
Появление индекса является результатом работы трех элементов программы индексирования. Схема взаимодействия между ними представлена на рис. 1. Собственно поиск по ключевым словам выполняет поисковая система (search engine). Именно к этой части программы индексирования обращается пользователь, задавая условие поиска в строке для ключевых слов. Поиск проходит в организованной программой базе данных. Совокупность найденных ссылок и адресов URL оформляется в виде Web-страницы результатов. Системы различаются своими возможностями. Некоторые из них поддерживают использование ключевых выражениях булевых операторов, позволяя существенно сузить область поиска. Другие, напротив, собирают всё, что содержит по крайней мере одно из заданных ключевых слов.
"Паук " (spider) (иногда называемый также "червем" (worm) или "гусеницей" (crawler)) должен выявить как можно больше Web-страниц. Для этого он "запоминает" все ссылки на открытые им документы. В обнаруженных таким образом новых страницах вновь отыскиваются и запоминаются ссылки. Эта процедура повторяется до тех пор, пока не будут исчерпаны все источники ссылок. Однако очевидно, что подобный метод не может гарантировать всеобъемлющих результатов: попадет ли тот или иной источник в число собран "пауком" страниц, целиком зависит от наличия ссылок на него в других документах Web.
Всякий раз, когда "паук" находит очередную Web-страницу, составитель индекса (indexer) изучает содержимое, занося слова, найденные в ссылках и тексте страниц, в гигантскую базу данных, уплотнить базу и очистить ее от повторяющихся элементов можно с помощью высокоэффективных алгоритмов строения баз данных, заложенных в составитель индекса. Это несложно, ведь в человеческой речи пока не используются уникальные слова. Составитель индекса должен в итоге создать базу, в которой URL адреса были бы соотнесены с наборами встречающихся в них слов.
Если какую-либо Web-страницу не удается найти, это еще не значит, что такой страницы не существует. Многие поисковые системы генерируют списки, в которых родственные темы собраны в разделы, организованные по принципу каталогов (такой принцип заложен, например, в Yahoo!). Если вам не удается найти нужные материалы - скажем, об уходе за йоркширским терьером (grooming Yorkshire Terrier), попробуйте отыскать их по индексу. Вполне возможно, искомая тема обнаружится среди его ссылок.
Чтобы повысить эффективность поиска по индексу, сделайте условие поиска более общим и добавьте ключевое слово "index". Так, условие Grooming AND (Yorkie OR "Yorkshire Terrier") следует изменить на Index AND (Yorkie OR Yorkshire). He исключено, что менее конкретное условие Index AND Terrier даст еще лучшие результаты. Если условие выбрано удачно, поисковая система возвратит один или несколько индексов, ссылающихся на страницы о йоркширской породе и терьерах.
На первый взгляд отличить программы индексирования от составителей каталогов трудно. Материя для поиска для обоих инструментов служит содержимое Web-страниц.
Однако, в отличие от программ индексирования, составители каталогов не разыскивают все Web - страницы Internet. Объектом поиска для них являются адреса URL, которые включаются в систематизированный каталог. Поиск по каталогу можно проводить как с помощью броузера, так и вручную, щелкая на названиях разделов и знакомясь с их содержимым.
Тем не менее, несмотря на принципиальные различия в механизмах работы, грань между граммами индексирования и составления каталогов постепенно стирается. Все чаще можно встретить индекс, снабженный средствами построения каталога. Нередко сами Web-страницы в верхней части имеют некое подобие содержания со ссылками на отдельные разделы.
Правильный выбор инструмента поиска - ключевой момент поисковой стратегии. Если не помогает одна служба, можно попробовать другие.
Параметры броузера можно изменить так, чтобы некоторая Web-страница отображалась всякий раз, когда происходит запуск Internet (стала начальной страницей по умолчанию). Сделав начальной Web-страницу какой-либо поисковой службы, вы получите немедленный доступ ко всему набору средств поиска, которыми располагает данная служба. Excite, InfoSeek и Yahoo! являются для этого лучшими кандидатами.
Наиболее популярным во всем мире признан тематический каталог Yahoo! (http://www.yahoo.com/). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает вам воспользоваться иерархическим деревом при поиске информации. То есть вы выбираете сначала общую тематику, удовлетворяющую вашему запросу информации, и далее конкретизируете, следуя подсказкам каталога. В конечно результате вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу. На Yahoo! вы также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Набираете эти слова через пробел в строке ввода на главной странице Yahoo! и нажимаете Enter. Система попытается сама подобрать интересующую вас информацию. Так как Yahoo! система англоязычная, то достаточно удобно использовать Интернет-переводчик, такой как "Сократ Интернет" (http://www.arsenal.ru/).
Если же вы ищите информацию заведомо русскоязычную, то имеет смысл использовать российские каталоги. Принцип работы с ними идентичен, тому который мы рассмотрели на примере с Yahoo!. Здесь стоит отметить первый российский каталог Russia on the Net (http://www.ru/), один из крупнейших русскоязычных каталогов List.RU (http://www.list.ru/), российский вариант Yahoo! (http://www.yahoo.ru/). Имеет место, также, каталог "Созвездие Интернет", содержащий только избранные (заявлено как самые интересные) ресурсы. Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернет" (http://www.piter-press.ru/yp), где как и в одноименной книге представлена детальная информация о самых разных ресурсах Интернет. В бизнесе также понадобятся каталоги предприятий и каталоги товаров и услуг. Пожалуй, самый крупный каталог предприятий СНГ Партнер (http://trifle.net/cis).
Поисковые машины устроены несколько иначе. По сути это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылками и переходя к новым страницам, проделывает с ними тоже самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет. Самая популярная поисковая машина AltaVista (http://www.altavista.com/) содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo! и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ *, расширяющий диапазон поиска. Скажем, что бы Altavista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т. д., в запросе надо писать "легк**". То есть изменяющиеся буквы окончания заменяем на символ *.
Как и предыдущем случае, для поиска в русскоязычном Интернет Altavista не очень подходит. Если на запрос "Light industry" Altavista формирует список из 2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок на всего 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (http://www.yandex.ru/). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltaVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким вашим требованиям должна отвечать, интересующая вас информация.