в свою базу данных. Так же происходит и обновление ранее принятых документов, но измененных за время после предыдущего копирования.
Индексация базы данных. Собрать базу данных сетевых Weu-ресурсов — еще не значит получить функционирующую поисковую систему. Поиск ключевых слов, введенных пользователем, в обширной базе — это весьма продолжительная операция. Чтобы не задерживать клиента более чем на доли секунды, собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы — поисковые указатели.Рафинирование результирующего списка. Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользовательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.
Рафинирование заключается в фильтрации и ранжировании результатов поиска.
Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же We^-pecypcy, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце. Понимание критерия «полезности» для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.
Новые поисковые технологии
Автоматическая каталогизация. Для поисковых каталогов вопрос несоответствия между размерами исследованного и неисследованного 1Уе6-пространства стоит особенно остро. Перспективные направления развития основаны на внедрении так называемых 5М/4.КГ-технологий автоматической каталогизации. Существует множество теоретических изысканий в области ^МЛЯГ-технологий, но наиболее перспективной является модель векторного информационного пространства. Представим себе эксперта в какой-то области, например в физике. Если ему поставить задачу, то, наверное, он сможет составить словари, характерные для таких областей, как Механика, Термодинамика, Оптика и т. п. Проанализировав множество документов, относящихся к этим научным областям, он сможет не только указать характерные термины и понятия, но и дать им весовые оценки. Так, например, достаточно очевидно, что слово «перемещение» имеет больший вес в механике, чем в термодинамике. Комбинируя термины и весовые коэффициенты, можно строить многомерные системы координат, в которых различные области знания описывались бы разными многомерными векторами. Глава 9. Получение информации из ИнтернетаАвтоматически получив новую Wei-страницу, поисковая система может построить для нее математический вектор, основанный на формальном анализе содержания. Сравнивая этот вектор с уже рассчитанными векторами для различных областей знания, система может без участия человека предположить, к какой категории, теме и разделу относится тот или иной документ.
При таком подходе не обязательно хранить копии всех известных Wei-страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для каждого Wei-документа хранить лишь его Ш?1-адрес и число, соответствующее вектору. В настоящее время конкретные алгоритмы 5МА#Г-технологий не публикуются, но можно предположить, что они уже работают, например в поисковых системах реального времени.Поисковые системы реального времени. Это новое направление в технологиях поиска. Для работы с такой службой пользователь должен подключиться к ее центральному серверу, получить оттуда и установить на своем компьютере клиентскую программу. Эта программа подключается к браузеру и работает как дополнительная панель.
При каждом запуске браузера клиентская программа устанавливает соединение со своим центральным сервером и далее работает с ним в паре. Она передает серверу копии всех Web-страниц, которые посещает пользователь, то есть выполняет те же функции, что и автоматический червь, копирующий Web-ресурсы на сервер традиционной поисковой системы. Однако при этом есть два существенных различия:
• во-первых, человек в ходе навигации в WWW руководствуется не теми прин-ципами, что автоматическая программа, поэтому сервер получает копии не всех Wei-ресурсов, а только тех, что заинтересовали кого-то из его клиентов;
• во-вторых, если поставкой Web-ресурсов занимаются несколько миллионовпостоянных клиентов, индексация Web-пространства происходит намного быстрее.
В свою очередь, пользователь тоже имеет важное преимущество. На какой бы Weiстранице он ни находился, система всегда готова предложить ему список других Wei-страниц, имеющих близкое по тематике содержание. Она готовит этот список на основании предшествующего опыта, полученного в работе с другими людьми. Так можно получить рекомендации, которые было бы очень трудно (а зачастую и невозможно) разыскать в WWWTpaflHHHOHHbiMH поисковыми средствами (рис. 9.7).9.3. Поиск информации в World Wide Web
аналогичной тематики
При наличии первичных сведений по теме поиска документы можно разыскивать в поисковых указателях. При этом следует различать приемы простого,расширенного, контекстного и специального поиска.•
Под простым поиском понимается поиск We6-peeypcoB по одному или нескольким ключевым словам. Недостаток простого поиска заключается в том, что обычно он выдает слишком много документов, среди которых трудно выбрать наиболее подходящие.•
При использовании расширенного поиска ключевые слова связывают между собой операторами логических отношений. Расширенный поиск применяют в тех случаях, когда приемы простого поиска дают слишком много результатов. С помощью логических отношений поисковое задание формируют так, чтобы более точно детализировать задание и ограничить область отбора, например по дате публикации или по типу данных.•
Контекстный поиск — это поиск по точной фразе. Он удобен для реферативного поиска информации, но доступен далеко не во всех поисковых системах. Прежде всего, чтобы обеспечивать такую возможность, система должна работать не только с индексированными файлами, но и с полноценными образами Webстраниц. Эта операция достаточно медленная, и ее выполняют лишь немногие поисковые системы.